このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240121となっている論文です。

PDF登録状況(公開日: 20240121)

TitleAuthorsAbstract論文公表日・翻訳日
# 検証入力によるカスタムゲートの折り曲げ

Folding Custom Gates with Verifier Input ( http://arxiv.org/abs/2401.11364v1 )

ライセンス: Link先を確認
Aard Vark, Yan X Zhang, (参考訳) 対話的証明の文脈において、「折り畳みスキーム」は制約システムの複数のインスタンスを単一のインスタンスに結合する方法であり、複数のインスタンスの有効性を統計的に1つのインスタンスの有効性に還元することができる。 ここでは,Nova の折りたたみを `custom'' ゲートと余分な検証器ランダム性に一般化する方法を示す。 この拡張の応用として、初めて(私たちの知る限り)ルックアップの折り畳みスキームの例である折り紙を提示する。

In the context of interactive proofs, a "folding scheme" (popularized by Nova) is a way to combine multiple instances of a constraint system into a single instance, so the validity of the multiple instances can statistically be reduced to the validity of a single one. We show how Nova folding can be generalized to ``custom'' gates and extra rounds of verifier randomness. As an application of this extension, we present Origami, the first (to our knowledge) known example of a folding scheme for lookups.
翻訳日:2024-03-18 08:36:55 公開日:2024-01-21
# 野生における不公正取引の解明による分散型取引所のセキュリティリスクの理解

Understanding the Security Risks of Decentralized Exchanges by Uncovering Unfair Trades in the Wild ( http://arxiv.org/abs/2401.11547v1 )

ライセンス: Link先を確認
Jiaqi Chen, Yibo Wang, Yuxuan Zhou, Wanning Ding, Yuzhe Tang, XiaoFeng Wang, Kai Li, (参考訳) DEX(decentralized Exchange)は、ブロックチェーン上の分散金融(DeFi)アプリケーションの顕著なクラスであり、今日の数千億USDの合計ロック値を引き付けている。 本稿では,Ethereum および Binance Smart Chain (BSC) 上で人気の DEX サービスに対する不公平な取引を明らかにするための,最初の大規模実証的研究について述べる。 6000万件の取引に加入して分析することで、Unixwap、 Balancer、Curveを含む6つの測定済みのDEXのすべてに対して、6億7400件の不公平な取引が見つかりました。 こうした不公平な取引の中で、55,000件のインスタンスが高信頼であり、トークンの盗難によって388万USドル以上の価値損失を引き起こしていると評価している。 さらに,これらの要因に対する抽出可能な値と実世界の適応戦略の既知原因を明らかにした。 最後に、セキュアなDEXプロトコルを再設計し、発見されたセキュリティリスクに対してデプロイされたサービスを強化するための対策を提案する。

DEX, or decentralized exchange, is a prominent class of decentralized finance (DeFi) applications on blockchains, attracting a total locked value worth tens of billions of USD today. This paper presents the first large-scale empirical study that uncovers unfair trades on popular DEX services on Ethereum and Binance Smart Chain (BSC). By joining and analyzing 60 million transactions, we find 671,400 unfair trades on all six measured DEXes, including Uniswap, Balancer, and Curve. Out of these unfair trades, we attribute 55,000 instances, with high confidence, to token thefts that cause a value loss of more than 3.88 million USD. Furthermore, the measurement study uncovers previously unknown causes of extractable value and real-world adaptive strategies to these causes. Finally, we propose countermeasures to redesign secure DEX protocols and to harden deployed services against the discovered security risks.
翻訳日:2024-03-18 08:36:55 公開日:2024-01-21
# SSO文脈におけるストレンクレデンシャルの有用性の低減

Reducing Usefulness of Stolen Credentials in SSO Contexts ( http://arxiv.org/abs/2401.11599v1 )

ライセンス: Link先を確認
Sam Hays, Michael Sandborn, Dr. Jules White, (参考訳) サイバー攻撃の約61%は、有効な資格を持つ敵を巻き込む。 攻撃者はフィッシング、ダークウェブデータドロップ、パスワードの再利用など、さまざまな手段で認証を取得する。 MFA (Multi-factor authentication) は、有効な認証情報を使用する攻撃を阻止するのに役立つが、攻撃者は依然としてシステムに侵入し、ユーザは '`MFA Bombing'' などのテクニックを通じて要求を段階的に受け取り、複数のリクエストを受信するまでユーザに送信する。 現在、この問題にはいくつかの解決策があり、それぞれ異なるレベルのセキュリティとユーザデバイスに対する侵入性の増大がある。 本稿では,モバイルデバイス管理よりもユーザデバイスへの侵入性が低いトークンベースの登録アーキテクチャを提案するが,盗難された認証情報やMFA攻撃に対する強力な保護を提供する。

Approximately 61% of cyber attacks involve adversaries in possession of valid credentials. Attackers acquire credentials through various means, including phishing, dark web data drops, password reuse, etc. Multi-factor authentication (MFA) helps to thwart attacks that use valid credentials, but attackers still commonly breach systems by tricking users into accepting MFA step up requests through techniques, such as ``MFA Bombing'', where multiple requests are sent to a user until they accept one. Currently, there are several solutions to this problem, each with varying levels of security and increasing invasiveness on user devices. This paper proposes a token-based enrollment architecture that is less invasive to user devices than mobile device management, but still offers strong protection against use of stolen credentials and MFA attacks.
翻訳日:2024-03-18 08:36:55 公開日:2024-01-21
# 量子インスパイアされたカオスサルプ群最適化と動的最適化

Quantum Inspired Chaotic Salp Swarm Optimization for Dynamic Optimization ( http://arxiv.org/abs/2402.16863v1 )

ライセンス: Link先を確認
Sanjai Pathak, Ashish Mani, Mayank Sharma, Amlan Chatterjee, (参考訳) 多くの実世界の問題は、事前に未知の動的最適化問題である。 実際には、新しいジョブの到着、予定日の変更、予約キャンセル、パラメータの変更や制約などの予測不可能なイベントは、探索環境を動的にする。 多くのアルゴリズムは定常最適化問題に対処するように設計されているが、これらのアルゴリズムは動的最適化問題に直面したり、それらを正しく管理したりしない。 いくつかの最適化アルゴリズムは、動的環境の変化に異なる方法で対処するために提案されているが、既存のアルゴリズムは、制限や欠点、特に以前同定されたオプティマの位置と追従に関して、まだ改善されている。 このことを念頭に、量子コンピューティングの原理を統合するQSSOとして知られるSSAの変種について検討した。 DOPのグローバルな最適点の探索と追跡によって、動的環境を効果的に扱うための標準SSAの全体的な性能を改善する試みがなされた。 この研究は、量子インスパイアされたカオスサルプ群最適化(QCSSO)アルゴリズムとして知られる、提案された新しいアルゴリズムQSSOの拡張である。 カオス演算子は、個体数の多様性とアルゴリズムが収束する速度を改善することにより、変化への対応と個々の探索可能性の向上を保証するために量子コンピューティングに使用される。 我々は、CEC 2009 に提供されるよく知られた一般化された動的ベンチマーク問題 (GDBG) について、QCSSO の評価実験を行った。 約束通り、導入されたQCSSOは、DOPのライバルアルゴリズムとして発見される。

Many real-world problems are dynamic optimization problems that are unknown beforehand. In practice, unpredictable events such as the arrival of new jobs, due date changes, and reservation cancellations, changes in parameters or constraints make the search environment dynamic. Many algorithms are designed to deal with stationary optimization problems, but these algorithms do not face dynamic optimization problems or manage them correctly. Although some optimization algorithms are proposed to deal with the changes in dynamic environments differently, there are still areas of improvement in existing algorithms due to limitations or drawbacks, especially in terms of locating and following the previously identified optima. With this in mind, we studied a variant of SSA known as QSSO, which integrates the principles of quantum computing. An attempt is made to improve the overall performance of standard SSA to deal with the dynamic environment effectively by locating and tracking the global optima for DOPs. This work is an extension of the proposed new algorithm QSSO, known as the Quantum-inspired Chaotic Salp Swarm Optimization (QCSSO) Algorithm, which details the various approaches considered while solving DOPs. A chaotic operator is employed with quantum computing to respond to change and guarantee to increase individual searchability by improving population diversity and the speed at which the algorithm converges. We experimented by evaluating QCSSO on a well-known generalized dynamic benchmark problem (GDBG) provided for CEC 2009, followed by a comparative numerical study with well-regarded algorithms. As promised, the introduced QCSSO is discovered as the rival algorithm for DOPs.
翻訳日:2024-03-18 07:09:00 公開日:2024-01-21
# 学習可能な確率離散遅延変数を機械学習モデルに組み込むことによる眼疾患検出のロバスト性の向上

Improve Robustness of Eye Disease Detection by including Learnable Probabilistic Discrete Latent Variables into Machine Learning Models ( http://arxiv.org/abs/2402.16865v1 )

ライセンス: Link先を確認
Anirudh Prabhakaran, YeKun Xiao, Ching-Yu Cheng, Dianbo Liu, (参考訳) 糖尿病網膜症から緑内障まで、眼疾患は、その流行と視覚障害を引き起こす可能性のために、公衆衛生上の重大な課題を呈する。 早期かつ正確な診断は、効果的な治療・管理に不可欠であり、近年、深層学習モデルは、眼画像などの医用画像を分析する強力なツールとして出現している。 しかし、モデル解釈可能性と不確実性の推定には課題が持続し、これは臨床的な意思決定に不可欠である。 本研究では,眼底画像を用いた眼疾患の分類と解析のために,GFlowOutの新たな応用法として,GFlowNets(Generative Flow Networks)の確率的フレームワークを活用してドロップアウトマスクの後方分布を学習する。 本稿では,ResNet18およびViTモデルと統合されたGFlowOutをバックボーンとして利用する,堅牢で一般化可能な手法を開発した。 この研究では、眼画像を解析する際のモデル性能を高めるために、無、無作為、ボトムアップ、トップダウンのユニークなドロップアウトマスクを用いている。 その結果,ボトムアップ型GFlowOutマスクの精度は向上し,従来のドロップアウト手法よりも優れていた。

Ocular diseases, ranging from diabetic retinopathy to glaucoma, present a significant public health challenge due to their prevalence and potential for causing vision impairment. Early and accurate diagnosis is crucial for effective treatment and management.In recent years, deep learning models have emerged as powerful tools for analysing medical images, including ocular imaging . However, challenges persist in model interpretability and uncertainty estimation, which are critical for clinical decision-making. This study introduces a novel application of GFlowOut, leveraging the probabilistic framework of Generative Flow Networks (GFlowNets) to learn the posterior distribution over dropout masks, for the classification and analysis of ocular diseases using eye fundus images. We develop a robust and generalizable method that utilizes GFlowOut integrated with ResNet18 and ViT models as backbone in identifying various ocular conditions. This study employs a unique set of dropout masks - none, random, bottomup, and topdown - to enhance model performance in analyzing ocular images. Our results demonstrate that the bottomup GFlowOut mask significantly improves accuracy, outperforming the traditional dropout approach.
翻訳日:2024-03-18 07:09:00 公開日:2024-01-21
# 局所ポテンシャル近似へのループ拡大と直列切断関数の導入に関する考察:グリーン関数を用いた複雑度解析, 進歩的安全のためのN次社会的相互作用の切断

Discussion of Loop Expansion and Introduction of Series Cutting Functions to Local Potential Approximation: Complexity Analysis Using Green's Functions, Cutting Of Nth-Order Social Interactions For Progressive Safety ( http://arxiv.org/abs/2403.08774v1 )

ライセンス: Link先を確認
Yasuko Kawahata, (参考訳) 本研究では,前述の論文「Edwards-Anderson Model: Extreme Value Information Flow Of Nth-Order Interpolated Extrapolation of Zero Phenomena using the Replica Method (2024)」に焦点をあてる。 また,フィルタバブル現象をよりよく理解するための理論物理学的手法を適用し,特にループ展開やトランケーション関数に着目した。 ループ展開法を用いて, フィルタバブル発生時の社会的相互作用の複雑さを考察し, 時系列を導入し, 数学的に表現し, それらの相互作用の影響を評価する。 エージェントとエージェント間の相互作用を,遅延グリーン関数,進行グリーン関数,因果グリーン関数など,さまざまなグリーン関数を用いて解析し,局所ポテンシャル近似によるシステムの動的応答を捉える。 さらに, トランケーション機能とトランケーション技術を適用し, インクリメンタルな安全性を確保し, システムの長期的安定性を評価する。 このアプローチにより,フィルタバブルの発生と溶解のメカニズムをよりよく理解し,その防止と管理に関する洞察を議論することが可能になる。 本研究は,社会科学問題に理論物理学の枠組みを適用する可能性について検討し,情報フローと世論形成の複雑なダイナミクスを分析する方法を検討する。

In this study, we focus on the aforementioned paper, "Examination Kubo-Matsubara Green's Function Of The Edwards-Anderson Model: Extreme Value Information Flow Of Nth-Order Interpolated Extrapolation Of Zero Phenomena Using The Replica Method (2024)". This paper also applies theoretical physics methods to better understand the filter bubble phenomenon, focusing in particular on loop expansions and truncation functions. Using the loop expansion method, the complexity of social interactions during the occurrence of filter bubbles will be discussed in order to introduce series, express mathematically, and evaluate the impact of these interactions. We analyze the interactions between agents and their time evolution using a variety of Green's functions, including delayed Green's functions, advanced Green's functions, and causal Green's functions, to capture the dynamic response of the system through local potential approximations. In addition, we apply truncation functions and truncation techniques to ensure incremental safety and evaluate the long-term stability of the system. This approach will enable a better understanding of the mechanisms of filter bubble generation and dissolution, and discuss insights into their prevention and management. This research explores the possibilities of applying theoretical physics frameworks to social science problems and examines methods for analyzing the complex dynamics of information flow and opinion formation in digital society.
翻訳日:2024-03-18 05:50:41 公開日:2024-01-21
# 分散SDNにおける適応型コントローラ同期のための制約付き強化学習

Constrained Reinforcement Learning for Adaptive Controller Synchronization in Distributed SDN ( http://arxiv.org/abs/2403.08775v1 )

ライセンス: Link先を確認
Ioannis Panitsas, Akrit Mudvari, Leandros Tassiulas, (参考訳) SDN(Software-Defined Network)では、特定のサブネットワークやドメインの管理を担当する各コントローラによる分散SDNコントローラの実装が、集中制御、スケーラビリティ、信頼性、ネットワーク効率のバランスを達成する上で重要な役割を果たす。 これらのコントローラは、ネットワーク全体の論理的に集中したビューを維持するために同期されなければならない。 分散SDNコントローラの同期には様々なアプローチがあるが、ほとんどの場合、通信遅延の最適化やロードバランシングといった目標を優先し、両方の側面を同時に扱うことを無視する傾向にある。 この制限は、Augmented and Virtual Reality (AR/VR)のような、制約付きネットワークレイテンシとかなりの計算リソースを必要とするアプリケーションを考えると、特に重要になる。 さらに、この分野における多くの既存の研究は、主に値に基づく強化学習(RL)法に依存しており、最先端のポリシーベースのRLアルゴリズムがもたらす潜在的な利点を見越している。 このギャップを埋めるために、当社の作業は、価値ベースの手法とポリシーベースの手法の両方を含む深層強化学習(DRL)技術を調べ、SDN環境でのAR/VRタスクのオフロードにおいて、高いレイテンシ閾値を保証するとともに、最もコスト効率のよいAR/VRタスクのオフロードサーバを選択することに焦点を当てています。 評価結果は,レイテンシやロードバランシングといった個々のネットワークメトリクスを最適化する上で,値ベースの手法が優れているのに対して,ポリシベースのアプローチは,突然のネットワーク変更や再構成に適応する上で,ロバスト性が高いことを示している。

In software-defined networking (SDN), the implementation of distributed SDN controllers, with each controller responsible for managing a specific sub-network or domain, plays a critical role in achieving a balance between centralized control, scalability, reliability, and network efficiency. These controllers must be synchronized to maintain a logically centralized view of the entire network. While there are various approaches for synchronizing distributed SDN controllers, most tend to prioritize goals such as optimization of communication latency or load balancing, often neglecting to address both the aspects simultaneously. This limitation becomes particularly significant when considering applications like Augmented and Virtual Reality (AR/VR), which demand constrained network latencies and substantial computational resources. Additionally, many existing studies in this field predominantly rely on value-based reinforcement learning (RL) methods, overlooking the potential advantages offered by state-of-the-art policy-based RL algorithms. To bridge this gap, our work focuses on examining deep reinforcement learning (DRL) techniques, encompassing both value-based and policy-based methods, to guarantee an upper latency threshold for AR/VR task offloading within SDN environments, while selecting the most cost-effective servers for AR/VR task offloading. Our evaluation results indicate that while value-based methods excel in optimizing individual network metrics such as latency or load balancing, policy-based approaches exhibit greater robustness in adapting to sudden network changes or reconfiguration.
翻訳日:2024-03-18 05:50:41 公開日:2024-01-21
# 近似スパイキング畳み込みトランスを用いたてんかん発作の検出と予測

Epilepsy Seizure Detection and Prediction using an Approximate Spiking Convolutional Transformer ( http://arxiv.org/abs/2402.09424v1 )

ライセンス: Link先を確認
Qinyu Chen, Congyi Sun, Chang Gao, Shih-Chii Liu(参考訳) てんかんは神経系の一般的な疾患である。 発作や介入治療のタイムリーな予測は、患者の事故的損傷を著しく軽減し、患者の生命と健康を保護する。 本稿では,頭皮式長期脳波計(eeg)記録からてんかん発作セグメントを検出・予測する神経形態的スパイキング畳み込みトランスフォーマ(spiking conformer)を提案する。 ボストン小児病院-MIT(CHB-MIT)脳波データを用いたスパイキング・コンフォーマーモデルの評価結果について報告する。 スパイクに基づく加算演算を利用することで、スパイク共役器は非スパイクモデルと比較して分類計算コストを大幅に削減する。 さらに、スパイクトリガードニューロンの更新を38%近く削減するために、精度を犠牲にすることなく近似スパイクニューロン層を導入する。 入力に生の脳波データを用いた場合、スパイキングコンフォーメータは、平均感度率94.9%、発作検出タスク99.3%、発作予測タスク96.8%、89.5%を達成し、非スパイキング等価モデルと比較して10倍以下の操作が必要となる。

Epilepsy is a common disease of the nervous system. Timely prediction of seizures and intervention treatment can significantly reduce the accidental injury of patients and protect the life and health of patients. This paper presents a neuromorphic Spiking Convolutional Transformer, named Spiking Conformer, to detect and predict epileptic seizure segments from scalped long-term electroencephalogram (EEG) recordings. We report evaluation results from the Spiking Conformer model using the Boston Children's Hospital-MIT (CHB-MIT) EEG dataset. By leveraging spike-based addition operations, the Spiking Conformer significantly reduces the classification computational cost compared to the non-spiking model. Additionally, we introduce an approximate spiking neuron layer to further reduce spike-triggered neuron updates by nearly 38% without sacrificing accuracy. Using raw EEG data as input, the proposed Spiking Conformer achieved an average sensitivity rate of 94.9% and a specificity rate of 99.3% for the seizure detection task, and 96.8%, 89.5% for the seizure prediction task, and needs >10x fewer operations compared to the non-spiking equivalent model.
翻訳日:2024-02-18 13:16:16 公開日:2024-01-21
# 大規模言語モデルに基づくマルチエイジェント:進歩と課題の調査

Large Language Model based Multi-Agents: A Survey of Progress and Challenges ( http://arxiv.org/abs/2402.01680v1 )

ライセンス: Link先を確認
Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang(参考訳) 大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。 LLMの優れた計画と推論能力のため、多くのタスクを自動で実行する自律エージェントとして使われてきた。 近年, 1 つの LLM を単一計画・意思決定エージェントとして利用し, 複雑な問題解決と世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。 本研究は, LLM に基づくマルチエージェントシステムの本質的側面と課題について, より深い議論を行うために, このダイナミックな分野の概要をコミュニティに提供するものである。 LLMベースのマルチエージェントはどのようなドメインや環境をシミュレートするのか? これらのエージェントはどのようにプロファイルされ、どのように通信するのか? エージェントのキャパシティの成長にどんなメカニズムが寄与するのか? この分野に関心がある人のために、便利なアクセスを提供するために、よく使われるデータセットやベンチマークをまとめます。 研究者が最新の研究をアップデートし続けるために、llmベースのマルチエージェントシステムに関する研究を概説するオープンソースgithubリポジトリをメンテナンスしています。

Large Language Models (LLMs) have achieved remarkable success across a wide array of tasks. Due to the impressive planning and reasoning abilities of LLMs, they have been used as autonomous agents to do many tasks automatically. Recently, based on the development of using one LLM as a single planning or decision-making agent, LLM-based multi-agent systems have achieved considerable progress in complex problem-solving and world simulation. To provide the community with an overview of this dynamic field, we present this survey to offer an in-depth discussion on the essential aspects of multi-agent systems based on LLMs, as well as the challenges. Our goal is for readers to gain substantial insights on the following questions: What domains and environments do LLM-based multi-agents simulate? How are these agents profiled and how do they communicate? What mechanisms contribute to the growth of agents' capacities? For those interested in delving into this field of study, we also summarize the commonly used datasets or benchmarks for them to have convenient access. To keep researchers updated on the latest studies, we maintain an open-source GitHub repository, dedicated to outlining the research on LLM-based multi-agent systems.
翻訳日:2024-02-11 16:51:19 公開日:2024-01-21
# 反衝突機構を持つMADRL系UAV軌道設計

MADRL-based UAVs Trajectory Design with Anti-Collision Mechanism in Vehicular Networks ( http://arxiv.org/abs/2402.03342v1 )

ライセンス: Link先を確認
Leonardo Spampinato, Enrico Testi, Chiara Buratti, Riccardo Marini(参考訳) 今後の6Gネットワークでは、無人航空機(UAV)が移動基地局として機能し、特にV2Xの応用を要求される。 このシナリオでは、最も困難な問題の1つは複数のUAVのための軌道の設計であり、同じ領域に協調して機能する。 このような共同軌道設計はマルチエージェント深部強化学習(MADRL)アルゴリズムを用いて行うことができるが、UAV間の衝突のない経路を確保することは重要な課題である。 伝統的な方法は、安全でない条件を抑止するために訓練中に高いペナルティを課すが、これらは非効率であることが証明されるが、バイナリマスクは安全でない行為を制限するために使用できるが、すべてのエージェントに無意識に適用すれば、最適でない解決策や非効率性につながる可能性がある。 これらの問題に対処するため,我々はランクベースのバイナリマスキング手法を提案する。 高ランクのUAVは最適に動き、低ランクのUAVはこの情報を使って改善されたバイナリマスクを定義し、安全でないアクションの数を減らす。 このアプローチは、探索と搾取の間の良好なトレードオフを得ることができ、安全制約を維持しながら訓練性能を向上させることができる。

In upcoming 6G networks, unmanned aerial vehicles (UAVs) are expected to play a fundamental role by acting as mobile base stations, particularly for demanding vehicle-to-everything (V2X) applications. In this scenario, one of the most challenging problems is the design of trajectories for multiple UAVs, cooperatively serving the same area. Such joint trajectory design can be performed using multi-agent deep reinforcement learning (MADRL) algorithms, but ensuring collision-free paths among UAVs becomes a critical challenge. Traditional methods involve imposing high penalties during training to discourage unsafe conditions, but these can be proven to be ineffective, whereas binary masks can be used to restrict unsafe actions, but naively applying them to all agents can lead to suboptimal solutions and inefficiencies. To address these issues, we propose a rank-based binary masking approach. Higher-ranked UAVs move optimally, while lower-ranked UAVs use this information to define improved binary masks, reducing the number of unsafe actions. This approach allows to obtain a good trade-off between exploration and exploitation, resulting in enhanced training performance, while maintaining safety constraints.
翻訳日:2024-02-11 15:37:59 公開日:2024-01-21
# ファジィ論理を用いた脳腫瘍検出・分類システム

Fuzzy Logic-Based System for Brain Tumour Detection and Classification ( http://arxiv.org/abs/2401.14414v1 )

ライセンス: Link先を確認
NVSL Narasimham, Keshav Kumar K(参考訳) 脳腫瘍(BT)は非常に危険で治療が難しい。 現在、医師は手作業で画像を調べ、btを診断するために腫瘍領域を手動でマークする必要がある。 近年、専門家はBTを早期に検出するための自動化アプローチを提案している。 これらの手法の精度が悪く、非常に誤った予測結果が原因で研究が開始された。 本研究では,BTを分類するファジィ論理に基づくシステムを提案する。 この研究では、腫瘍や健康な画像を含む253個の磁気共鳴画像(MRI)のデータセットを使用しました。 画像は最初に前処理された。 その後、腫瘍の大きさや画像のグローバルしきい値などの機能を抽出します。 流域および地域成長アプローチは、腫瘍の大きさを計算するために用いられる。 その後、ファジィシステムは2つの特徴を入力として受け取る。 両方のサイズ決定手法を用いてファジィの結果を評価するために、精度、F1スコア、精度、リコールを用いる。 地域成長法とグローバルしきい値によって大きさ入力変数が検出され、ファジィシステムは流域法を上回る。 この研究の意義は、より正確で効率的な自動分類システムを提供することで、脳腫瘍の診断に革命をもたらす可能性にある。 人間の介入を減らし、信頼できる結果を提供することで、このアプローチは、タイムリーで正確な意思決定を行う医療専門家を支援し、患者の結果を改善し、命を救える可能性がある。 このような自動化技術の進歩は、医療画像解析の強化と、最終的には脳腫瘍のより良い管理の道を開く可能性がある。

Brain Tumours (BT) are extremely dangerous and difficult to treat. Currently, doctors must manually examine images and manually mark out tumour regions to diagnose BT; this process is time-consuming and error-prone. In recent times, experts have proposed automating approaches for detecting BT at an early stage. The poor accuracy and highly incorrect prediction results of these methods caused them to start the research. In this study, we suggest a fuzzy logic-based system for categorising BT. This study used a dataset of 253 Magnetic Resonance Imaging (MRI) brain images that included tumour and healthy images. The images were first pre-processed. After that, we pull out features like tumour size and the image's global threshold value. The watershed and region-growing approach is used to calculate the tumour size. After that, the fuzzy system receives the two features as input. Accuracy, F1-score, precision, and recall are used to assess the results of the fuzzy by employing both size determination approaches. With the size input variable discovered by the region growth method and global threshold values, the fuzzy system outperforms the watershed method. The significance of this research lies in its potential to revolutionize brain tumour diagnosis by offering a more accurate and efficient automated classification system. By reducing human intervention and providing reliable results, this approach could assist medical professionals in making timely and precise decisions, leading to improved patient outcomes and potentially saving lives. The advancement of such automated techniques has the potential to pave the way for enhanced medical imaging analysis and, ultimately, better management of brain tumour cases.
翻訳日:2024-02-04 05:42:23 公開日:2024-01-21
# 正常難聴児における画像処理による聴覚性脳幹反応ピークの検出

Detection of Auditory Brainstem Response Peaks Using Image Processing Techniques in Infants with Normal Hearing Sensitivity ( http://arxiv.org/abs/2401.17317v1 )

ライセンス: Link先を確認
Amir Majidpour, Samer Kais Jameel, Jafar Majidpour, Houra Bagheri, Tarik A.Rashid, Ahmadreza Nazeri, Mahshid Moheb Aleaba(参考訳) 序論: 正常聴覚児の脳幹レベルの末梢性聴覚神経系の完全性を見出すために、聴覚性脳幹反応(abr)を測定した。 聴覚誘発電位(AEP)は音響刺激によって生成される。 これらの波の解釈には聴覚障害の誤診を避ける能力が必要である。 コンピュータビジョンによるABRテストラベリングの自動化は、人間のエラーを減らす可能性がある。 方法: 両耳に正常な聴力を有する1~20ヵ月児26名を対象にABR試験を行った。 異なる強度(デシベル)の波のピークを自動的に計算する新しい手法が提案されている。 カラーしきい値法を用いてオーデラ装置から波画像を取得し、画像領域アナライザアプリケーションを用いて各波を単一の波画像に区分し、画像処理(ip)技術を用いて全波画像を波に変換し、最終的に、疾患診断に使用する各波のピークのレイテンシを算出する。 結果: 画像処理技術では, 診断領域の1, 3, 5波をそれぞれ精度(0.82), (0.98), および (0.98) で検出でき, その精度は1, 3, 5波(0.32), (0.97) および (0.87) であった。 この評価は閾値部でも良好に動作し、82.7%がABR波を正確に検出した。 結論:ABR波の自動検出・ラベル付け技術を用いて,音響検査用バッテリスイートをより正確,迅速,かつエラーのないものにできることを示す。

Introduction: The auditory brainstem response (ABR) is measured to find the brainstem-level peripheral auditory nerve system integrity in children having normal hearing. The Auditory Evoked Potential (AEP) is generated using acoustic stimuli. Interpreting these waves requires competence to avoid misdiagnosing hearing problems. Automating ABR test labeling with computer vision may reduce human error. Method: The ABR test results of 26 children aged 1 to 20 months with normal hearing in both ears were used. A new approach is suggested for automatically calculating the peaks of waves of different intensities (in decibels). The procedure entails acquiring wave images from an Audera device using the Color Thresholder method, segmenting each wave as a single wave image using the Image Region Analyzer application, converting all wave images into waves using Image Processing (IP) techniques, and finally calculating the latency of the peaks for each wave to be used by an audiologist for diagnosing the disease. Findings: Image processing techniques were able to detect 1, 3, and 5 waves in the diagnosis field with accuracy (0.82), (0.98), and (0.98), respectively, and its precision for waves 1, 3, and 5, were respectively (0.32), (0.97) and (0.87). This evaluation also worked well in the thresholding part and 82.7 % correctly detected the ABR waves. Conclusion: Our findings indicate that the audiology test battery suite can be made more accurate, quick, and error-free by using technology to automatically detect and label ABR waves.
翻訳日:2024-02-04 05:37:53 公開日:2024-01-21
# 大きな言語モデルで泳ぐためのマイクロロボットの訓練

Training microrobots to swim by a large language model ( http://arxiv.org/abs/2402.00044v1 )

ライセンス: Link先を確認
Zhuoqun Xu and Lailai Zhu(参考訳) 機械学習と人工知能は、さまざまなスケールでロボットシステムを設計および最適化するための一般的なパラダイムである。 近年の研究では、大型言語モデル(llm)の産業制御における革新的応用([1])と脚歩行ロボットの誘導([2])が紹介されている。 本研究では,LLM,GPT-4を用いて,粘性流体中を泳ぐための2つの原型マイクロロボットを訓練する。 少数の学習アプローチを採用し、わずか5文からなる最小の統一的なプロンプトを開発した。 同じ簡潔なプロンプトは、3リンクスイマーと3球スイマーの2つの明瞭なマイクロロボットを、それぞれの署名ストロークの習得に成功させた。 これらのストロークは物理学者によって概念化され、現在ではllmによって効果的に解釈され適用され、マイクロロボットはマイクロロコモーションに固有の物理的制約を回避できる。 LLMに基づく意思決定戦略は,学習速度において従来の強化学習手法を大幅に上回っている。 我々は急激な設計の難しさ、特にGPT-4の使用による金銭支出の削減を強調した点について論じる。

Machine learning and artificial intelligence have recently represented a popular paradigm for designing and optimizing robotic systems across various scales. Recent studies have showcased the innovative application of large language models (LLMs) in industrial control [1] and in directing legged walking robots [2]. In this study, we utilize an LLM, GPT-4, to train two prototypical microrobots for swimming in viscous fluids. Adopting a few-shot learning approach, we develop a minimal, unified prompt composed of only five sentences. The same concise prompt successfully guides two distinct articulated microrobots -- the three-link swimmer and the three-sphere swimmer -- in mastering their signature strokes. These strokes, initially conceptualized by physicists, are now effectively interpreted and applied by the LLM, enabling the microrobots to circumvent the physical constraints inherent to micro-locomotion. Remarkably, our LLM-based decision-making strategy substantially surpasses a traditional reinforcement learning method in terms of training speed. We discuss the nuanced aspects of prompt design, particularly emphasizing the reduction of monetary expenses of using GPT-4.
翻訳日:2024-02-04 05:10:37 公開日:2024-01-21
# スマートシティにおける協調のための合意技術

Agreement Technologies for Coordination in Smart Cities ( http://arxiv.org/abs/2401.12259v1 )

ライセンス: Link先を確認
Holger Billhardt, Alberto Fern\'andez, Marin Lujak, Sascha Ossowski(参考訳) 今日の社会における多くの課題は、分散オープンシステムによって対処できる。 これは特に、インテリジェントな輸送、スマートエネルギーグリッド、参加型ガバナンスといったスマートシティの傘の下で一般的に認識されるドメインに当てはまる。 これらのドメインのためのコンピュータアプリケーションを設計する際には、ソフトウェアエージェントと呼ばれるシステムの要素が、通常、異なる設計者によって作られ、特定の利害関係者のために振る舞うという事実を考慮する必要がある。 さらに、そのようなエージェントがいつシステムに入るか、あるいは離脱するか、新しいエージェントがどのような興味を持つかは、設計時点で不明である。 このようなシステムのコーディネーションを強化するには特に要求があり、通常は実行時に直接制御できるのは一部のみである。 合意技術は、そのようなオープンマルチエージェントシステムの開発のためのツールとメカニズムのサンドボックスであり、合意の概念に基づいている。 本稿では,合意技術がスマートシティ領域におけるコーディネーションの実現に適した手段であり,実世界のいくつかの応用例を通じて,我々の主張を裏付けるものであることを論じる。

Many challenges in today's society can be tackled by distributed open systems. This is particularly true for domains that are commonly perceived under the umbrella of smart cities, such as intelligent transportation, smart energy grids, or participative governance. When designing computer applications for these domains, it is necessary to account for the fact that the elements of such systems, often called software agents, are usually made by different designers and act on behalf of particular stakeholders. Furthermore, it is unknown at design time when such agents will enter or leave the system, and what interests new agents will represent. To instil coordination in such systems is particularly demanding, as usually only part of them can be directly controlled at runtime. Agreement technologies refer to a sandbox of tools and mechanisms for the development of such open multiagent systems, which are based on the notion of agreement. In this paper, we argue that agreement technologies are a suitable means for achieving coordination in smart city domains, and back our claim through examples of several real-world applications.
翻訳日:2024-01-24 17:55:53 公開日:2024-01-21
# 強化学習エージェントにおける創発的支配階層

Emergent Dominance Hierarchies in Reinforcement Learning Agents ( http://arxiv.org/abs/2401.12258v1 )

ライセンス: Link先を確認
Ram Rachum, Yonatan Nakar, Bill Tomlinson, Nitay Alon, Reuth Mirsky(参考訳) 現代の強化学習(RL)アルゴリズムは、様々なタスクにおいて人間より優れている。 マルチエージェント強化学習(MARL)の設定には新たな課題があり、エージェントの混合モチベーションにおける協調の成功は、個人とグループ間の微妙なバランスをとる行為に依存する。 社会的慣習や規範は、しばしば人間の制度に触発され、このバランスを取るための道具として用いられる。 本稿では,動物社会と人間社会の連携の基盤となる,基礎的でよく研究された社会慣行について考察する。 我々は、支配階層の倫理理論を人工エージェントに適用し、確立された用語と定義を可能な限り少ない修正で借用する。 明示的なプログラミングや本質的な報酬なしに活動するRLエージェントの集団は、新しい集団に支配階層を発明し、学習し、強制し、伝達することができることを示す。 支配的な階層構造は、鶏、マウス、魚、その他の種で研究されるものと類似した構造を持つ。

Modern Reinforcement Learning (RL) algorithms are able to outperform humans in a wide variety of tasks. Multi-agent reinforcement learning (MARL) settings present additional challenges, and successful cooperation in mixed-motive groups of agents depends on a delicate balancing act between individual and group objectives. Social conventions and norms, often inspired by human institutions, are used as tools for striking this balance. In this paper, we examine a fundamental, well-studied social convention that underlies cooperation in both animal and human societies: Dominance hierarchies. We adapt the ethological theory of dominance hierarchies to artificial agents, borrowing the established terminology and definitions with as few amendments as possible. We demonstrate that populations of RL agents, operating without explicit programming or intrinsic rewards, can invent, learn, enforce, and transmit a dominance hierarchy to new populations. The dominance hierarchies that emerge have a similar structure to those studied in chickens, mice, fish, and other species.
翻訳日:2024-01-24 17:55:22 公開日:2024-01-21
# 大規模言語モデルのインストラクションフィンガープリント

Instructional Fingerprinting of Large Language Models ( http://arxiv.org/abs/2401.12255v1 )

ライセンス: Link先を確認
Jiashu Xu, Fei Wang, Mingyu Derek Ma, Pang Wei Koh, Chaowei Xiao, Muhao Chen(参考訳) 大規模言語モデル(LLM)をスクラッチからトレーニングする余分なコストは、オーナーシップ認証を通じて知的財産を保護するためにモデルをフィンガープリントし、下流のユーザや開発者がライセンス条件(商業利用の制限など)に準拠するようにすることが不可欠である。 本研究では,非常に軽量な命令チューニングの一形態として,llmフィンガープリンティングに関するパイロット研究を行う。 モデルパブリッシャは秘密の秘密鍵を特定し、鍵が存在するときにllmが特定のテキストを生成する命令バックドアとして埋め込む。 11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。 また、パブリッシャーの誇張を防ぎ、指紋推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。 コードはhttps://cnut1648.github.io/Model-Fingerprint/で入手できる。

The exorbitant cost of training Large language models (LLMs) from scratch makes it essential to fingerprint the models to protect intellectual property via ownership authentication and to ensure downstream users and developers comply with their license terms (e.g. restricting commercial use). In this study, we present a pilot study on LLM fingerprinting as a form of very lightweight instruction tuning. Model publisher specifies a confidential private key and implants it as an instruction backdoor that causes the LLM to generate specific text when the key is present. Results on 11 popularly-used LLMs showed that this approach is lightweight and does not affect the normal behavior of the model. It also prevents publisher overclaim, maintains robustness against fingerprint guessing and parameter-efficient training, and supports multi-stage fingerprinting akin to MIT License. Code is available in https://cnut1648.github.io/Model-Fingerprint/.
翻訳日:2024-01-24 17:54:13 公開日:2024-01-21
# 混合密度ネットワークに基づくナノフォトニクスの移動学習支援逆モデリング

Transfer learning-assisted inverse modeling in nanophotonics based on mixture density networks ( http://arxiv.org/abs/2401.12254v1 )

ライセンス: Link先を確認
Liang Cheng and Prashant Singh and Francesco Ferranti(参考訳) ナノフォトニクス構造のシミュレーションは電磁解法に依存しており、その挙動を理解する上で重要な役割を果たす。 しかし、これらの解法は計算コストがかなり高く、最適化や非現実的な設計タスクに応用されることが多い。 この課題に対処するために、フォトニックデバイスの正確かつ効率的なモデリングと設計のために機械学習技術が研究されている。 特にディープニューラルネットワークは、この分野でかなりの注目を集めている。 前方モデルと逆モデルの両方を作成するために使用できる。 逆モデリングアプローチは、フォワードモデルとオプティマイザを結合する必要性を回避し、最適な設計パラメータの予測を直接実行する。 本稿では,移動学習により強化された混合密度ネットワークモデルに基づいて,ナノフォトニック構造の逆モデリング手法を提案する。 混合密度ネットワークはガウス分布としての重要性を含む複数の可能な解を同時に予測することができる。 しかし,混合密度ネットワークモデルには複数の課題が存在する。 重要な課題は、同時解の可能な数に対する上限を事前に指定する必要があることである。 また、別の課題として、モデルパラメータは共同で最適化されなければならない。 さらに、全てのパラメータを同時に最適化することは数値的に不安定であり、退化予測につながる可能性がある。 提案手法は,光応答を入力とする設計ソリューションの予測能力を高い精度で保ちながら,伝達学習に基づく手法を用いてこれらの制限を克服することができる。 次元化のステップも検討されている。 提案手法を数値計算により検証した。

The simulation of nanophotonic structures relies on electromagnetic solvers, which play a crucial role in understanding their behavior. However, these solvers often come with a significant computational cost, making their application in design tasks, such as optimization, impractical. To address this challenge, machine learning techniques have been explored for accurate and efficient modeling and design of photonic devices. Deep neural networks, in particular, have gained considerable attention in this field. They can be used to create both forward and inverse models. An inverse modeling approach avoids the need for coupling a forward model with an optimizer and directly performs the prediction of the optimal design parameters values. In this paper, we propose an inverse modeling method for nanophotonic structures, based on a mixture density network model enhanced by transfer learning. Mixture density networks can predict multiple possible solutions at a time including their respective importance as Gaussian distributions. However, multiple challenges exist for mixture density network models. An important challenge is that an upper bound on the number of possible simultaneous solutions needs to be specified in advance. Also, another challenge is that the model parameters must be jointly optimized, which can result computationally expensive. Moreover, optimizing all parameters simultaneously can be numerically unstable and can lead to degenerate predictions. The proposed approach allows overcoming these limitations using transfer learning-based techniques, while preserving a high accuracy in the prediction capability of the design solutions given an optical response as an input. A dimensionality reduction step is also explored. Numerical results validate the proposed method.
翻訳日:2024-01-24 17:53:36 公開日:2024-01-21
# Wavelet Networks:生の時系列から学習するスケール-トランスレーション

Wavelet Networks: Scale-Translation Equivariant Learning From Raw Time-Series ( http://arxiv.org/abs/2006.05259v2 )

ライセンス: Link先を確認
David W. Romero, Erik J. Bekkers, Jakub M. Tomczak, Mark Hoogendoorn(参考訳) 同変ニューラルネットワーク構築のために、特定のデータ領域に固有の対称性を活用することは、データ効率と一般化の点で著しく改善される。 しかし、既存の研究のほとんどは平面データと体積データから生じる対称性に焦点を当てており、重要なデータソースはほとんどが未調査の時系列である。 本研究では,同変ニューラルネットワークの構築に時系列固有の対称性を活用することにより,このギャップを埋める。 スケールと翻訳*という2つのコア対称性を同定し、時系列学習のためのスケール変換同変ニューラルネットワークを構築する。 興味深いことに、スケール変換同変写像はウェーブレット変換と強い類似性を持つ。 この類似性に着想を得て、我々のネットワークをウェーブレットネットワークと呼び、ネストした非線形ウェーブレットのような時間周波数変換を行うことを示す。 実験結果から、ウェーブレットネットワークは生波形上で従来のCNNよりも優れており、音響、環境音、電気信号など、様々なタスクや時系列タイプにわたる強力な分光法と一致していることがわかった。 私たちのコードはhttps://github.com/dwromero/wavelet_networksで公開されています。

Leveraging the symmetries inherent to specific data domains for the construction of equivariant neural networks has lead to remarkable improvements in terms of data efficiency and generalization. However, most existing research focuses on symmetries arising from planar and volumetric data, leaving a crucial data source largely underexplored: time-series. In this work, we fill this gap by leveraging the symmetries inherent to time-series for the construction of equivariant neural network. We identify two core symmetries: *scale and translation*, and construct scale-translation equivariant neural networks for time-series learning. Intriguingly, we find that scale-translation equivariant mappings share strong resemblance with the wavelet transform. Inspired by this resemblance, we term our networks Wavelet Networks, and show that they perform nested non-linear wavelet-like time-frequency transforms. Empirical results show that Wavelet Networks outperform conventional CNNs on raw waveforms, and match strongly engineered spectrogram techniques across several tasks and time-series types, including audio, environmental sounds, and electrical signals. Our code is publicly available at https://github.com/dwromero/wavelet_networks.
翻訳日:2024-01-24 00:45:12 公開日:2024-01-21
# 弁論意味論と自然言語弁論グラフネットワークを用いた議論の自動評価

Automatic Debate Evaluation with Argumentation Semantics and Natural Language Argument Graph Networks ( http://arxiv.org/abs/2203.14647v2 )

ライセンス: Link先を確認
Ramon Ruiz-Dolz, Stella Heras, Ana Garc\'ia-Fornes(参考訳) 専門家の議論と完全な議論に関する注釈付きデータの欠如は、より複雑な自然言語処理タスクに近付くことの難しさと単純化につながった。 これが自動討論評価のケースである。 本稿では,議論的議論を自動的に評価するオリジナルのハイブリッド手法を提案する。 その目的のために、議論フレームワークやセマンティクスといった議論理論から、Transformerベースのアーキテクチャやニューラルネットワークまでの概念を組み合わせる。 さらに、未探索の自然言語引数の自動解析の新たな事例に基づく有望な結果を得る。

The lack of annotated data on professional argumentation and complete argumentative debates has led to the oversimplification and the inability of approaching more complex natural language processing tasks. Such is the case of the automatic debate evaluation. In this paper, we propose an original hybrid method to automatically evaluate argumentative debates. For that purpose, we combine concepts from argumentation theory such as argumentation frameworks and semantics, with Transformer-based architectures and neural graph networks. Furthermore, we obtain promising results that lay the basis on an unexplored new instance of the automatic analysis of natural language arguments.
翻訳日:2024-01-24 00:41:53 公開日:2024-01-21
# サンダーンナ:白い箱の敵の攻撃

Thundernna: a white box adversarial attack ( http://arxiv.org/abs/2111.12305v2 )

ライセンス: Link先を確認
Linfeng Ye, Shayan Mohajer Hamidi(参考訳) 既存の研究によると、ニューラルネットワークは直感的な勾配に基づく最適化法で訓練されており、敵の攻撃を受けやすいため、通常の入力に小さな悪意を加えるだけで、ニューラルネットワークを誤ったものにすることができる。 同時に、ニューラルネットワークに対する攻撃はその堅牢性を改善する鍵となる。 敵の例に対するトレーニングによって、ニューラルネットワークはある種の敵の攻撃に抵抗することができる。 同時に、ニューラルネットワークに対する敵対攻撃は、以前の研究で議論されたような複雑な高次元非線形関数であるニューラルネットワークの特徴を明らかにすることもできる。 本稿では,ニューラルネットワークを攻撃するための一階法を提案する。 他の1次攻撃と比較して、我々の手法は成功率が高い。 さらに、二階攻撃や多段一階攻撃よりもはるかに高速である。

The existing work shows that the neural network trained by naive gradient-based optimization method is prone to adversarial attacks, adds small malicious on the ordinary input is enough to make the neural network wrong. At the same time, the attack against a neural network is the key to improving its robustness. The training against adversarial examples can make neural networks resist some kinds of adversarial attacks. At the same time, the adversarial attack against a neural network can also reveal some characteristics of the neural network, a complex high-dimensional non-linear function, as discussed in previous work. In This project, we develop a first-order method to attack the neural network. Compare with other first-order attacks, our method has a much higher success rate. Furthermore, it is much faster than second-order attacks and multi-steps first-order attacks.
翻訳日:2024-01-24 00:39:52 公開日:2024-01-21
# 認識指向顔画像品質評価のための深部微小ネットワーク

Deep Tiny Network for Recognition-Oriented Face Image Quality Assessment ( http://arxiv.org/abs/2106.04852v2 )

ライセンス: Link先を確認
Baoyun Peng, Min Liu, Zhaoning Zhang, Kai Xu, Dongsheng Li(参考訳) 近年の顔認識は、深層畳み込みニューラルネットワーク(CNN)によって大きな進歩を遂げている。 多くの顔認識(FR)のシナリオでは、顔画像は大きな変分を含むシーケンスから取得される。 これらの変化は、主に低品質の顔画像に影響され、認識性能の不安定性を引き起こす。 これまで、ビデオからフレームを選択するアドホックな方法や、複数の歪みの特定の組み合わせのみを考慮に入れた顔画像品質評価(fiqa)手法に重点を置いてきた。 本研究では,画像品質評価 (iqa) とfrを直接リンクする,効率的な非参照画像品質評価手法を提案する。 より具体的には、参照することなく画質を評価するための新しい測定方法を提案する。 提案した品質測定に基づいて,データから品質予測関数を学習する深層顔品質ネットワーク(tinyFQnet)を提案する。 IJB-B と YTF という2つの古典的ビデオベース(テンプレートベース)のベンチマークで提案手法の評価を行った。 大規模な実験により, 小型FQnetは他よりもはるかに小さいが, 提案手法は, 有効性および効率性の観点から, 最先端品質評価法より優れていることがわかった。

Face recognition has made significant progress in recent years due to deep convolutional neural networks (CNN). In many face recognition (FR) scenarios, face images are acquired from a sequence with huge intra-variations. These intra-variations, which are mainly affected by the low-quality face images, cause instability of recognition performance. Previous works have focused on ad-hoc methods to select frames from a video or use face image quality assessment (FIQA) methods, which consider only a particular or combination of several distortions. In this work, we present an efficient non-reference image quality assessment for FR that directly links image quality assessment (IQA) and FR. More specifically, we propose a new measurement to evaluate image quality without any reference. Based on the proposed quality measurement, we propose a deep Tiny Face Quality network (tinyFQnet) to learn a quality prediction function from data. We evaluate the proposed method for different powerful FR models on two classical video-based (or template-based) benchmark: IJB-B and YTF. Extensive experiments show that, although the tinyFQnet is much smaller than the others, the proposed method outperforms state-of-the-art quality assessment methods in terms of effectiveness and efficiency.
翻訳日:2024-01-24 00:37:14 公開日:2024-01-21
# 共分散行列からの結合絡み合い次元

Bounding entanglement dimensionality from the covariance matrix ( http://arxiv.org/abs/2208.04909v5 )

ライセンス: Link先を確認
Shuheng Liu, Matteo Fadel, Qiongyi He, Marcus Huber and Giuseppe Vitagliano(参考訳) 高次元の絡み合いは、量子情報処理において重要な資源であり、量子システムをシミュレーションするための主要な障害でもある。 その認証はしばしば困難であり、実験の最も広く使われている方法は、高度に絡み合った状態に対する忠実度の測定に基づいている。 ここでは、集合可観測物の共分散を、よく知られた共分散行列基準(CMC)[1] において考慮し、二部系のシュミット数を決定するための CMC の一般化を示す。 これはコールド原子のような多体系において特に有利であり、実際的な測定のセットは非常に限られており、集合作用素の分散のみを推定できる。 結果の実際的妥当性を示すために,忠実性に基づく証人と同様の情報を必要とする単純なシュミット数基準を導出するが,より広範な状態を検出することができる。 また、スピン共分散に基づくパラダイム的基準も検討し、冷間原子系の高次元絡みの実験的検出に非常に役立ちます。 我々は,実験結果の多粒子アンサンブルへの適用性や今後の課題について論じる。

High-dimensional entanglement has been identified as an important resource in quantum information processing, and also as a main obstacle for simulating quantum systems. Its certification is often difficult, and most widely used methods for experiments are based on fidelity measurements with respect to highly entangled states. Here, instead, we consider covariances of collective observables, as in the well-known Covariance Matrix Criterion (CMC)[1] and present a generalization of the CMC for determining the Schmidt number of a bipartite system. This is potentially particularly advantageous in many-body systems, such as cold atoms, where the set of practical measurements is very limited and only variances of collective operators can typically be estimated. To show the practical relevance of our results, we derive simpler Schmidt-number criteria that require similar information as the fidelity-based witnesses, yet can detect a wider set of states. We also consider paradigmatic criteria based on spin covariances, which would be very helpful for experimental detection of high-dimensional entanglement in cold atom systems. We conclude by discussing the applicability of our results to a multiparticle ensemble and some open questions for future work.
翻訳日:2024-01-24 00:30:22 公開日:2024-01-21
# 高次元点雲データに対するマニフォールド散乱変換

The Manifold Scattering Transform for High-Dimensional Point Cloud Data ( http://arxiv.org/abs/2206.10078v2 )

ライセンス: Link先を確認
Joyce Chew, Holly R. Steach, Siddharth Viswanath, Hau-Tieng Wu, Matthew Hirn, Deanna Needell, Smita Krishnaswamy, Michael Perlmutter(参考訳) 多様体散乱変換はリーマン多様体上のデータに対する深い特徴抽出器である。 これは畳み込みニューラルネットワークのような作用素を一般多様体に拡張する最初の例の1つである。 このモデルの最初の研究は、理論的な安定性と不変性に重点を置いていたが、事前定義されたメッシュを持つ二次元曲面を除いて数値的な実装方法を提供しなかった。 本研究では, 拡散写像の理論に基づいて, 低次元多様体上に横たわるような高次元の点雲である単一細胞遺伝学などの自然論系におけるデータセットに対する多様体散乱変換を実装するための実用的なスキームを提案する。 本手法は信号分類や多様体分類に有効であることを示す。

The manifold scattering transform is a deep feature extractor for data defined on a Riemannian manifold. It is one of the first examples of extending convolutional neural network-like operators to general manifolds. The initial work on this model focused primarily on its theoretical stability and invariance properties but did not provide methods for its numerical implementation except in the case of two-dimensional surfaces with predefined meshes. In this work, we present practical schemes, based on the theory of diffusion maps, for implementing the manifold scattering transform to datasets arising in naturalistic systems, such as single cell genetics, where the data is a high-dimensional point cloud modeled as lying on a low-dimensional manifold. We show that our methods are effective for signal classification and manifold classification tasks.
翻訳日:2024-01-24 00:27:33 公開日:2024-01-21
# コーン制限情報理論

Cone-Restricted Information Theory ( http://arxiv.org/abs/2206.04300v2 )

ライセンス: Link先を確認
Ian George, Eric Chitambar(参考訳) マックス関係エントロピーと条件付きミンエントロピーはワンショット情報理論の中心となっている。 どちらも正の半定義円錐上の円錐プログラムの観点から表現できる。 近年、分離可能な円錐上で同じ円錐プログラムが変更され、量子チャネル上で古典的な情報を伝達する操作的解釈が認められることが示されている。 本研究は、量子情報理論のどの結果が正の半定円錐に依存し、一般化できるかを決定するためにコーンを置き換えるこの枠組みを一般化する。 完全量子シュタインの補題と漸近的等分性は、コーンが指数関数的に資源密度を増大させるが、正の半定値円錐を近似しないときに崩壊する。 しかし、CQ状態に対して、分離可能な円錐は漸近理論を回復するのに十分であることを示すため、完全量子と部分量子設定を強く区別する。 拡張条件付きミンエントロピーの並列結果を示す。 その際、k-超陽性チャネルの概念をスーパーチャネルに拡張する。 このフレームワークの運用利用についても紹介する。 まず、Choi演算子のコーン制限最小エントロピーが、制限された測定値を用いた絡み合い支援ノイズレス古典的通信の尺度をキャプチャすることを示す。 量子メジャー化の結果は自然に他の円錐に一般化する。 新たな例として,量子チャネルの量子メジャー化をbistochastic pre-processという観点から捉えたmin-entropy様量を提案する。 最後に、この枠組みを一般的な円錐ノルムとその非加法性に関連付ける。 本研究を通じて,本手法と一般凸資源理論との関係を強調する。 特に、コヒーレンス/アベリア対称性の局所性を捉える資源理論と資源理論の両方を考察する。

The max-relative entropy and the conditional min-entropy it induces have become central to one-shot information theory. Both may be expressed in terms of a conic program over the positive semidefinite cone. Recently, it was shown that the same conic program altered to be over the separable cone admits an operational interpretation in terms of communicating classical information over a quantum channel. In this work, we generalize this framework of replacing the cone to determine which results in quantum information theory rely upon the positive semidefinite cone and which can be generalized. We show the fully quantum Stein's lemma and asymptotic equipartition property break down if the cone exponentially increases in resourcefulness but never approximates the positive semidefinite cone. However, we show for CQ states, the separable cone is sufficient to recover the asymptotic theory, thereby drawing a strong distinction between the fully and partial quantum settings. We present parallel results for the extended conditional min-entropy. In doing so, we extend the notion of k-superpositive channels to superchannels. We also present operational uses of this framework. We first show the cone restricted min-entropy of a Choi operator captures a measure of entanglement-assisted noiseless classical communication using restricted measurements. We show that quantum majorization results naturally generalize to other cones. As a novel example, we introduce a new min-entropy-like quantity that captures the quantum majorization of quantum channels in terms of bistochastic pre-processing. Lastly, we relate this framework to general conic norms and their non-additivity. Throughout this work we emphasize the introduced measures' relationship to general convex resource theories. In particular, we look at both resource theories that capture locality and resource theories of coherence/Abelian symmetries.
翻訳日:2024-01-24 00:27:01 公開日:2024-01-21
# supmae:supervised masked autoencoderは効率的な視覚学習者

SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners ( http://arxiv.org/abs/2205.14540v3 )

ライセンス: Link先を確認
Feng Liang, Yangguang Li, Diana Marculescu(参考訳) 近年、自己教師付きマスク付きオートエンコーダ(mae)は、その印象的な表現学習能力によって、前例のない注目を集めている。 しかし、Masked Image Modeling (MIM)というプレテキストタスクは、画像のグローバルな理解を欠いた、欠落するローカルパッチを再構築する。 そこで本論文では,MAEを教師付き分類分岐を追加することにより,ゴールデンレーベルからグローバルな特徴を効果的に学習できるようにする。 提案する教師付きmae (supmae) は,すべての画像パッチが使用される標準教師付き事前トレーニングとは異なり,画像パッチの可視部分のみを分類に利用する。 実験により、SupMAEは学習効率が向上するだけでなく、より堅牢で伝達可能な特徴も学習できることを示した。 具体的には、SupMAEは、ViT-B/16モデルでImageNet上で評価した場合、計算の30%しか使用せず、MAEと同等のパフォーマンスを達成する。 SupMAEのImageNet変種に対する堅牢性と転送学習性能は、MAEおよび標準教師付き事前学習性能より優れている。 コードはhttps://github.com/enyac-group/supmaeで入手できる。

Recently, self-supervised Masked Autoencoders (MAE) have attracted unprecedented attention for their impressive representation learning ability. However, the pretext task, Masked Image Modeling (MIM), reconstructs the missing local patches, lacking the global understanding of the image. This paper extends MAE to a fully supervised setting by adding a supervised classification branch, thereby enabling MAE to learn global features from golden labels effectively. The proposed Supervised MAE (SupMAE) only exploits a visible subset of image patches for classification, unlike the standard supervised pre-training where all image patches are used. Through experiments, we demonstrate that SupMAE is not only more training efficient but it also learns more robust and transferable features. Specifically, SupMAE achieves comparable performance with MAE using only 30% of compute when evaluated on ImageNet with the ViT-B/16 model. SupMAE's robustness on ImageNet variants and transfer learning performance outperforms MAE and standard supervised pre-training counterparts. Codes are available at https://github.com/enyac-group/supmae.
翻訳日:2024-01-24 00:26:34 公開日:2024-01-21
# グラフニューラルネットワークを用いた無線マルチホップネットワークにおける混雑対応分散タスクオフロード

Congestion-aware Distributed Task Offloading in Wireless Multi-hop Networks Using Graph Neural Networks ( http://arxiv.org/abs/2312.02471v2 )

ライセンス: Link先を確認
Zhongyuan Zhao and Jake Perazzone and Gunjan Verma and Santiago Segarra(参考訳) 計算オフロードは、モバイルおよびスマートデバイスにおけるエッジインテリジェンスの有効成分となっている。 既存のオフロード方式は主にモバイルデバイスとサーバに重点を置いているが、複数のモバイルデバイス、特に無線マルチホップネットワークによるタスクによるネットワークの混雑を無視している。 このギャップを埋めるために,分散グリーディフレームワークをグラフベース機械学習で拡張することにより,低オーバーヘッドで混雑を考慮した分散タスクオフロード方式を提案する。 20-110ノードを有するシミュレーション無線マルチホップネットワークと最短経路ルーティングと競合ベースのリンクスケジューリングに基づくリソース割り当てスキームにおいて,提案手法は,ローカルコンピューティングよりも実行遅延を改善しつつ,コンテキスト依存ベースライン下での混雑や不安定なキューの削減に有効であることを実証した。

Computational offloading has become an enabling component for edge intelligence in mobile and smart devices. Existing offloading schemes mainly focus on mobile devices and servers, while ignoring the potential network congestion caused by tasks from multiple mobile devices, especially in wireless multi-hop networks. To fill this gap, we propose a low-overhead, congestion-aware distributed task offloading scheme by augmenting a distributed greedy framework with graph-based machine learning. In simulated wireless multi-hop networks with 20-110 nodes and a resource allocation scheme based on shortest path routing and contention-based link scheduling, our approach is demonstrated to be effective in reducing congestion or unstable queues under the context-agnostic baseline, while improving the execution latency over local computing.
翻訳日:2024-01-24 00:17:05 公開日:2024-01-21
# 太陽系外惑星トランジット検出のためのGPU位相フォルダリングと深層学習法

The GPU Phase Folding and Deep Learning Method for Detecting Exoplanet Transits ( http://arxiv.org/abs/2312.02063v2 )

ライセンス: Link先を確認
Kaitlyn Wang, Jian Ge, Kevin Willis, Kevin Wang, Yinan Zhao(参考訳) 本稿では,新しいグラフィック処理ユニット(gpu)位相折り畳み・畳み込みニューラルネットワーク(cnn)システムgpfcを用いて,トランジット法を用いて太陽系外惑星を検出する。 本研究では,gpu上で並列化された高速折り畳みアルゴリズムを考案し,低信号対雑音比のトランジット信号を増幅し,高精度かつ高速に探索する。 CNNは200万の合成光度曲線をトレーニングし、それぞれの周期で惑星の信号の可能性を示すスコアを報告した。 GPFC法は周期範囲に広く適用可能であるが,本研究では,軌道周期が1日以内の超短周期惑星の検出に特化している。 GPFCは、主要なBox-fitting Least Squares (BLS) 法よりも3桁の速度を改善する。 シミュレーションの結果,GPFCのトレーニング精度は97%であり,検出の偽陽性率が高い,BLSと比較した場合のリコール率が高い,などの結果を得た。 gpfcは、既知の超短周期惑星を、ブラインドサーチから$\textit{kepler}$光曲線で回収する。 これらの結果は、$\textit{Kepler}$およびK2、TESS、将来のPLATO、Earth 2.0などの宇宙輸送ミッションで得られたデータから、新しいトランジット系外惑星を見つけるための従来のBLSアルゴリズムに代わるアプローチとしてのGPFCの可能性を強調している。

This paper presents GPFC, a novel Graphics Processing Unit (GPU) Phase Folding and Convolutional Neural Network (CNN) system to detect exoplanets using the transit method. We devise a fast folding algorithm parallelized on a GPU to amplify low signal-to-noise ratio transit signals, allowing a search at high precision and speed. A CNN trained on two million synthetic light curves reports a score indicating the likelihood of a planetary signal at each period. While the GPFC method has broad applicability across period ranges, this research specifically focuses on detecting ultra-short-period planets with orbital periods less than one day. GPFC improves on speed by three orders of magnitude over the predominant Box-fitting Least Squares (BLS) method. Our simulation results show GPFC achieves $97%$ training accuracy, higher true positive rate at the same false positive rate of detection, and higher precision at the same recall rate when compared to BLS. GPFC recovers $100\%$ of known ultra-short-period planets in $\textit{Kepler}$ light curves from a blind search. These results highlight the promise of GPFC as an alternative approach to the traditional BLS algorithm for finding new transiting exoplanets in data taken with $\textit{Kepler}$ and other space transit missions such as K2, TESS and future PLATO and Earth 2.0.
翻訳日:2024-01-24 00:16:26 公開日:2024-01-21
# Wurtzite AlNの高速及び量子精度熱シミュレーションのためのマシンラーニング原子クラスター膨張電位

Machine-Learned Atomic Cluster Expansion Potentials for Fast and Quantum-Accurate Thermal Simulations of Wurtzite AlN ( http://arxiv.org/abs/2311.11990v2 )

ライセンス: Link先を確認
Guang Yang, Yuan-Bin Liu, Lei Yang, Bing-Yang Cao(参考訳) 本研究では, 原子クラスター展開(ACE)フレームワークを用いて, 窒化ウルツイトアルミニウムのフォノン輸送特性を高速かつ正確にモデル化するための機械学習原子間ポテンシャルを開発した。 密度汎関数理論(英語版)(dft)に対するaceポテンシャルの予測力は、基底状態格子パラメータ、比熱容量、熱膨張係数、バルク弾性率、高調波フォノン分散を含む、w-alnの幅広い性質にわたって実証されている。 さらに、ACE予測値とDFT計算および実験値を比較し、無調波フォノン相互作用を十分に記述する上でのACEポテンシャルの全体的な能力を示すことにより、格子熱伝導率の検証を行う。 本稿では,w-AlN系電子の近接接合熱設計のための重要なチューニング因子として同定されたw-AlNの熱伝導率とフォノン特性に及ぼす二軸ひずみの影響を明らかにするためのポテンシャルを用いた格子動力学解析を行う。

Using the atomic cluster expansion (ACE) framework, we develop a machine learning interatomic potential for fast and accurately modelling the phonon transport properties of wurtzite aluminum nitride. The predictive power of the ACE potential against density functional theory (DFT) is demonstrated across a broad range of properties of w-AlN, including ground-state lattice parameters, specific heat capacity, coefficients of thermal expansion, bulk modulus, and harmonic phonon dispersions. Validation of lattice thermal conductivity is further carried out by comparing the ACE-predicted values to the DFT calculations and experiments, exhibiting the overall capability of our ACE potential in sufficiently describing anharmonic phonon interactions. As a practical application, we perform a lattice dynamics analysis using the potential to unravel the effects of biaxial strains on thermal conductivity and phonon properties of w-AlN, which is identified as a significant tuning factor for near-junction thermal design of w-AlN-based electronics.
翻訳日:2024-01-24 00:15:30 公開日:2024-01-21
# 運動的拘束モデルにおける多体局在の増強

Enhanced many-body localization in a kinetically constrained model ( http://arxiv.org/abs/2310.00482v2 )

ライセンス: Link先を確認
Karl Royen, Suman Mondal, Frank Pollmann and Fabian Heidrich-Meisner(参考訳) 閉じた量子系の熱化の研究において、時間的ダイナミクスと最終的な熱化に対する速度論的制約の役割は大きな関心を集めている。 運動的制約は通常、初期条件によって長寿命の準安定状態につながる。 本研究では,ガラス力学を高密度で捉えるために考案された動的制約を加味したハードコアボソンの相互作用モデルを考える。 その結果,本システムは非相関性障害の存在下での局在性が高いことが示された。 障害の追加は、密度自己相関の時間発展において証明されるように、すぐに長寿命のダイナミクスを引き起こす。 さらに, 運動論的制約は, 多体局所化相への有限サイズの遷移が, 運動論的制約を伴わない同一モデルよりもずっと低い障害強度で起こる固有状態においても局所化が好まれる。 我々の研究は、運動的制約と局所化の複雑な相互作用に光を当て、時間領域における多体局所化位相のさらなる制御を提供するかもしれない。

In the study of the thermalization of closed quantum systems, the role of kinetic constraints on the temporal dynamics and the eventual thermalization is attracting significant interest. Kinetic constraints typically lead to long-lived metastable states depending on initial conditions. We consider a model of interacting hardcore bosons with an additional kinetic constraint that was originally devised to capture glassy dynamics at high densities. As a main result, we demonstrate that the system is highly prone to localization in the presence of uncorrelated disorder. Adding disorder quickly triggers long-lived dynamics as evidenced in the time evolution of density autocorrelations. Moreover, the kinetic constraint favors localization also in the eigenstates, where a finite-size transition to a many-body localized phase occurs for much lower disorder strengths than for the same model without a kinetic constraint. Our work sheds light on the intricate interplay of kinetic constraints and localization and may provide additional control over many-body localized phases in the time domain.
翻訳日:2024-01-24 00:15:10 公開日:2024-01-21
# 三角格子上の量子ループモデルから生じる立方体*臨界

Cubic* criticality emerging from quantum loop model on triangular lattice ( http://arxiv.org/abs/2309.05715v2 )

ライセンス: Link先を確認
Xiaoxue Ran, Zheng Yan, Yan-Cheng Wang, Junchen Rong, Yang Qi, and Zi Yang Meng(参考訳) 量子ループ(quantum loop)とディマー(dimer)モデルは、局所的な制約と相関した系の典型的な例であり、熱力学的極限でそれらを解くための制御方法がないため、汎用解を得るのが困難である。 しかし、これらの解は統計場理論と量子場理論、およびライドベルク原子配列と量子モア'e材料における急速に成長する実験に直ちに関係し、相関と局所的な制約の間の相互作用が多くの新しい現象を引き起こす。 最近の研究[1]では、クラスター量子モンテカルロ(QMC)シミュレーションと場の理論解析により、三角格子量子ループモデル(QLM)が、格子ネマティック(LN)、ビソンプラケット(VP)結晶、およびロクサー・キベルソン(RK)点に近い$\mathbb{Z}_2$量子スピン液体(QSL)を持つリッチ基底状態相図をホストしていることが発見された。 Here, we focus on the continuous quantum critical point separating the VP and QSL phases and demonstrate via both static and dynamic probes in QMC simulations that this transition is of the (2+1)d Cubic* universality, in which the fractionalized visons in QSL condense to give rise to the crystalline VP phase, while leaving their trace in the anomalously large anomalous dimension exponent and pronounced continua in the dimer and vison spectra compared with those at the conventional Cubic or O(3) quantum critical points.

Quantum loop and dimer models are archetypal examples of correlated systems with local constraints, whose generic solutions are difficult to obtain due to the lack of controlled methods to solve them in the thermodynamic limit. Yet, these solutions are of immediate relevance towards both statistical and quantum field theories, as well as the fast-growing experiments in Rydberg atom arrays and quantum moir\'e materials, where the interplay between correlation and local constraints gives rise to a plethora of novel phenomena. In a recent work[1], it was found via sweeping cluster quantum Monte Carlo (QMC) simulations and field theory analysis that the triangular lattice quantum loop model (QLM) hosts a rich ground state phase diagram with lattice nematic (LN), vison plaquette (VP) crystals, and the $\mathbb{Z}_2$ quantum spin liquid (QSL) close to the Rokhsar-Kivelson (RK) point. Here, we focus on the continuous quantum critical point separating the VP and QSL phases and demonstrate via both static and dynamic probes in QMC simulations that this transition is of the (2+1)d Cubic* universality, in which the fractionalized visons in QSL condense to give rise to the crystalline VP phase, while leaving their trace in the anomalously large anomalous dimension exponent and pronounced continua in the dimer and vison spectra compared with those at the conventional Cubic or O(3) quantum critical points.
翻訳日:2024-01-24 00:14:04 公開日:2024-01-21
# 永続テンソルと多次元エンタングルメント変換

Persistent Tensors and Multiqudit Entanglement Transformation ( http://arxiv.org/abs/2211.00652v2 )

ライセンス: Link先を確認
Masoud Gharahi and Vladimir Lysikov(参考訳) 我々は、新しいテンソルのクラスに対してテンソル階数の下限を構築し、永続テンソルと呼ぶ。 持続テンソルの3つの特定の族を示し、その下限はタイトである。 これらの3つの族の間には、それらの間の絡み合い変換の研究に使用できる最小ランクの永続テンソルの縮退の連鎖があることを示す。 さらに、持続テンソルのこれらの3つの族は、確かにマルチキュービット$\rm{W}$状態の異なる一般化であり、幾何的にマルチキュービット$\rm{GHZ}$状態の軌道閉包にあることを示す。 その結果,マルチキューディット$\rm{GHZ}$状態からの$\rm{W}$状態の一般化を,漸近的確率的局所演算と古典的通信(SLOCC)をレート1で得られることを示す。 最後に、得られたテンソルランクの下界を、永続的なサマンドを持つ直和と、ブロックピラミッドテンソルと呼ばれるテンソルのより一般的な組み合わせに拡張する。 結果として、テンソル階数はクローネッカーと、$\rm{GHZ}$テンソルを持つ最小ランクの持続テンソルのテンソル積の下で乗法的であることを示す。

We construct a lower bound of the tensor rank for a new class of tensors, which we call persistent tensors. We present three specific families of persistent tensors, of which the lower bound is tight. We show that there is a chain of degenerations between these three families of minimal-rank persistent tensors that can be used to study the entanglement transformation between them. In addition, we show that these three families of persistent tensors are indeed different generalizations of multiqubit $\rm{W}$ states within multiqudit systems and are geometrically in the orbit closure of multiqudit $\rm{GHZ}$ states. Consequently, we show that one can obtain every one of the generalizations of $\rm{W}$ state from a multiqudit $\rm{GHZ}$ state via asymptotic Stochastic Local Operations and Classical Communication (SLOCC) with rate one. Finally, we extend the obtained lower bound of the tensor rank to direct sums with persistent summands and to even more general combinations of tensors, which we call block pyramidal tensors. As a result, we show that the tensor rank is multiplicative under the Kronecker and tensor products of minimal-rank persistent tensors with the $\rm{GHZ}$ tensor.
翻訳日:2024-01-24 00:13:16 公開日:2024-01-21
# CLID: 限られたデータによる制御長画像記述

CLID: Controlled-Length Image Descriptions with Limited Data ( http://arxiv.org/abs/2211.14835v2 )

ライセンス: Link先を確認
Elad Hirsch and Ayellet Tal(参考訳) 制御可能な画像キャプションモデルは、人間のような画像記述を生成し、生成されたキャプションのある種の制御を可能にする。 本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。 既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。 長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを強化することを提案する。 しかし、これらは様々な品質を持つため、従来の訓練には適さない。 トレーニング中に使用するデータポイントを異なるタイミングで選択する,新たなトレーニング戦略を提案する。 本手法は,キャプション品質の点でSoTA性能を示しながら,長さ制御能力を劇的に向上させる。 我々のアプローチは一般的であり、段落生成にも適用可能である。

Controllable image captioning models generate human-like image descriptions, enabling some kind of control over the generated captions. This paper focuses on controlling the caption length, i.e. a short and concise description or a long and detailed one. Since existing image captioning datasets contain mostly short captions, generating long captions is challenging. To address the shortage of long training examples, we propose to enrich the dataset with varying-length self-generated captions. These, however, might be of varying quality and are thus unsuitable for conventional training. We introduce a novel training strategy that selects the data points to be used at different times during the training. Our method dramatically improves the length-control abilities, while exhibiting SoTA performance in terms of caption quality. Our approach is general and is shown to be applicable also to paragraph generation.
翻訳日:2024-01-23 22:27:36 公開日:2024-01-21
# 視覚位置認識のための集合データベース選択の優位化

Dominating Set Database Selection for Visual Place Recognition ( http://arxiv.org/abs/2303.05123v3 )

ライセンス: Link先を確認
Anastasiia Kornilova, Ivan Moskalenko, Timofei Pushkin, Fakhriddin Tojiboev, Rahim Tariverdizadeh, Gonzalo Ferrer(参考訳) 本稿では,RGBDスキャンシーケンスから室内環境のローカライズのための視覚的位置認識(VPR)データベースを作成する手法を提案する。 提案手法は,空間情報から構築したグラフのドミネーションセットアルゴリズムを用いて最小化問題として定式化され,ドミネーションセットと呼ばれる。 本アルゴリズムは,データベース作成に使用される他の手法と比較して,シーンカバレッジを向上する。 また,dominatingsetを使用すると,データベースサイズは元のスキャンシーケンスの最大250~1400倍小さくなり,リコールレートはテストシーケンスの80%以上となることを実証した。 提案アルゴリズムを7シーンとBundleFusionデータセットと,高度に反復的なオフィス設定で追加記録したシーケンスで評価した。 さらに、データベース選択は、ニューラルネットワークの位置認識アルゴリズムを特定の設定に微調整する弱い教師付きラベルを生成することができ、精度をさらに向上させる。 また、RGBDスキャンシーケンスからVPRデータベースを作成するための完全自動化パイプラインと、VPRデータベース評価のためのメトリクスセットも提示する。 コードとリリースされたデータは、私たちのWebページ~-https://prime-slam.github.io/place-recognition-db/で利用可能です。

This paper presents an approach for creating a visual place recognition (VPR) database for localization in indoor environments from RGBD scanning sequences. The proposed approach is formulated as a minimization problem in terms of dominating set algorithm for graph, constructed from spatial information, and referred as DominatingSet. Our algorithm shows better scene coverage in comparison to other methodologies that are used for database creation. Also, we demonstrate that using DominatingSet, a database size could be up to 250-1400 times smaller than the original scanning sequence while maintaining a recall rate of more than 80% on testing sequences. We evaluated our algorithm on 7-scenes and BundleFusion datasets and an additionally recorded sequence in a highly repetitive office setting. In addition, the database selection can produce weakly-supervised labels for fine-tuning neural place recognition algorithms to particular settings, improving even more their accuracy. The paper also presents a fully automated pipeline for VPR database creation from RGBD scanning sequences, as well as a set of metrics for VPR database evaluation. The code and released data are available on our web-page~ -- https://prime-slam.github.io/place-recognition-db/
翻訳日:2024-01-23 22:16:21 公開日:2024-01-21
# maskdiff: 拡散確率モデルを用いた少数インスタンスセグメンテーションのためのマスク分布のモデル化

MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model for Few-Shot Instance Segmentation ( http://arxiv.org/abs/2303.05105v2 )

ライセンス: Link先を確認
Minh-Quan Le, Tam V. Nguyen, Trung-Nghia Le, Thanh-Toan Do, Minh N. Do, Minh-Triet Tran(参考訳) 少数ショットのインスタンスセグメンテーション 少数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。これは、新しいカテゴリの注釈付き例でクエリイメージからインスタンスオブジェクトをセグメンテーションしようとするものである。 従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。 しかし、このメカニズムは予測のプロトタイプ(平均$K-$shot)に依存するため、パフォーマンスが不安定になる。 点推定機構の欠点を克服するため、オブジェクト領域と$K-$shot情報に条件付けされたバイナリマスクの条件分布をモデル化したMaskDiffと呼ばれる新しい手法を提案する。 ガウス雑音による摂動データを低密度領域に分散させる拡張手法に着想を得て,拡散確率モデルを用いてマスク分布をモデル化する。 また,二項マスク生成プロセスにカテゴリ情報を統合するために,分類器のないガイドマスクサンプリングを提案する。 提案手法は,既存の手法よりも安定しながら,cocoデータセットのベースクラスと新規クラスの両方において,最先端のメソッドを一貫して上回っています。 ソースコードはhttps://github.com/minhquanlecs/maskdiff。

Few-shot instance segmentation extends the few-shot learning paradigm to the instance segmentation task, which tries to segment instance objects from a query image with a few annotated examples of novel categories. Conventional approaches have attempted to address the task via prototype learning, known as point estimation. However, this mechanism depends on prototypes (\eg mean of $K-$shot) for prediction, leading to performance instability. To overcome the disadvantage of the point estimation mechanism, we propose a novel approach, dubbed MaskDiff, which models the underlying conditional distribution of a binary mask, which is conditioned on an object region and $K-$shot information. Inspired by augmentation approaches that perturb data with Gaussian noise for populating low data density regions, we model the mask distribution with a diffusion probabilistic model. We also propose to utilize classifier-free guided mask sampling to integrate category information into the binary mask generation process. Without bells and whistles, our proposed method consistently outperforms state-of-the-art methods on both base and novel classes of the COCO dataset while simultaneously being more stable than existing methods. The source code is available at: https://github.com/minhquanlecs/MaskDiff.
翻訳日:2024-01-23 22:16:01 公開日:2024-01-21
# VivesDebate-Speech:モーメント・マイニングのための音声機能を活用した音声処理コーパス

VivesDebate-Speech: A Corpus of Spoken Argumentation to Leverage Audio Features for Argument Mining ( http://arxiv.org/abs/2302.12584v2 )

ライセンス: Link先を確認
Ramon Ruiz-Dolz and Javier Iranzo-S\'anchez(参考訳) 本稿では,音声機能を利用した口頭弁論コーパスであるVivesDebate-Speechについて述べる。 このコーパスの作成は、音声処理と議論のマイニングコミュニティの交点への重要な貢献であり、このトピックにおいて最も完全なパブリックリソースの1つである。 さらに,議論マイニングパイプラインに音声機能を統合する際の改良点を示す,先駆的な実験のセットも実施している。 得られた結果は将来の研究のベースラインとして利用できる。

In this paper, we describe VivesDebate-Speech, a corpus of spoken argumentation created to leverage audio features for argument mining tasks. The creation of this corpus represents an important contribution to the intersection of speech processing and argument mining communities, and one of the most complete publicly available resources in this topic. Moreover, we have performed a set of first-of-their-kind experiments which show an improvement when integrating audio features into the argument mining pipeline. The provided results can be used as a baseline for future research.
翻訳日:2024-01-23 22:15:21 公開日:2024-01-21
# ベイズ行列分解とその応用

Bayesian Matrix Decomposition and Applications ( http://arxiv.org/abs/2302.11337v2 )

ライセンス: Link先を確認
Jun Lu(参考訳) 本書の唯一の目的は、行列分解技法をシームレスに導入するために、ベイズ行列分解における概念と数学的ツールを自己完結的に導入することである。 しかし,ベイズ行列の分解に関する有用かつ興味深い結果をすべてカバーできないことを明確に認識し,最適化を行うための変分推論の分離解析など,この議論を行うためのスコープのpaucityを与えられた。 ベイズ解析の分野における文献を参照し、関連する分野についてより詳細な解説を行う。 この本は主に目的の要約であり、例えば、実数値分解、非負行列分解、ベイズ補間分解、およびそれらの応用に光を当てた方法の起源と複雑さといった重要なベイズ行列分解法の重要性である。 数学の前提条件は統計学と線型代数の最初のコースである。 この控えめな背景以外は、開発は自己完結しており、厳密な証明が提供される。

The sole aim of this book is to give a self-contained introduction to concepts and mathematical tools in Bayesian matrix decomposition in order to seamlessly introduce matrix decomposition techniques and their applications in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results concerning Bayesian matrix decomposition and given the paucity of scope to present this discussion, e.g., the separated analysis of variational inference for conducting the optimization. We refer the reader to literature in the field of Bayesian analysis for a more detailed introduction to the related fields. This book is primarily a summary of purpose, significance of important Bayesian matrix decomposition methods, e.g., real-valued decomposition, nonnegative matrix factorization, Bayesian interpolative decomposition, and the origin and complexity of the methods which shed light on their applications. The mathematical prerequisite is a first course in statistics and linear algebra. Other than this modest background, the development is self-contained, with rigorous proof provided throughout.
翻訳日:2024-01-23 22:15:12 公開日:2024-01-21
# マルチキャリブレーションによるSwap Agnostic Learning, or characterizing Omniprediction by Multicalibration

Swap Agnostic Learning, or Characterizing Omniprediction via Multicalibration ( http://arxiv.org/abs/2302.06726v2 )

ライセンス: Link先を確認
Parikshit Gopalan and Michael P. Kim and Omer Reingold(参考訳) 我々は,Swap Agnostic Learningを紹介し,研究する。 この問題は、予測者と逆者の間のゲームとして表現することができる: まず、予測者は仮説 $h$ を選択し、その後、逆者が反応してプレイし、予測者の各レベル集合に対して$\{x \in \mathcal{x} : h(x) = v\}$ は(異なる)損失最小化仮説 $c_v \in \mathcal{c}$; 予測者は$h$ が適応逆者の損失と競合した場合に勝つ。 敵の強みにも拘わらず,あらゆる凸損失に対するSwap Agnostic Learningの実現可能性を示す。 意外なことに、結果はOmnipredictionとMulticalibrationの関連性の調査に続いた。 オムニプレディクション(Omniprediction)は、無知学習のような古典的な概念を補強する予測器の最適性の新しい概念である。 損失最小化は、特定の損失関数だけでなく、豊富な損失ファミリーに属する損失に対しても適用される(仮説クラスに関連する)。 最近の研究の行は、多元化と関連する多群フェアネス概念が全量化を暗示していることを示している。 この予期せぬ結びつきが疑問を提起する: 雑食に多群公正性は必要か? 私たちの仕事は、この質問に対する最初の肯定的な答えを与えます。 我々は,全述語スワップ変種とマルチカリブレーション,スワップ非依存学習の等価性を確立する。 さらに、スワップマルチキャリブレーションは基本的にはマルチキャリブレーションの標準概念と等価であるため、既存の学習アルゴリズムはこれらの3つの概念のいずれかを達成するために利用できる。 この特徴に基づいて、多群フェアネス、全方位法、およびアウトカム不識別性の異なる変種間の関係の完全な図面を描く。 この調査は、全述語と多重化のすべての既存の概念を捉えたoiの統一概念を明らかにする。

We introduce and study Swap Agnostic Learning. The problem can be phrased as a game between a predictor and an adversary: first, the predictor selects a hypothesis $h$; then, the adversary plays in response, and for each level set of the predictor $\{x \in \mathcal{X} : h(x) = v\}$ selects a (different) loss-minimizing hypothesis $c_v \in \mathcal{C}$; the predictor wins if $h$ competes with the adaptive adversary's loss. Despite the strength of the adversary, we demonstrate the feasibility Swap Agnostic Learning for any convex loss. Somewhat surprisingly, the result follows through an investigation into the connections between Omniprediction and Multicalibration. Omniprediction is a new notion of optimality for predictors that strengthtens classical notions such as agnostic learning. It asks for loss minimization guarantees (relative to a hypothesis class) that apply not just for a specific loss function, but for any loss belonging to a rich family of losses. A recent line of work shows that omniprediction is implied by multicalibration and related multi-group fairness notions. This unexpected connection raises the question: is multi-group fairness necessary for omniprediction? Our work gives the first affirmative answer to this question. We establish an equivalence between swap variants of omniprediction and multicalibration and swap agnostic learning. Further, swap multicalibration is essentially equivalent to the standard notion of multicalibration, so existing learning algorithms can be used to achieve any of the three notions. Building on this characterization, we paint a complete picture of the relationship between different variants of multi-group fairness, omniprediction, and Outcome Indistinguishability. This inquiry reveals a unified notion of OI that captures all existing notions of omniprediction and multicalibration.
翻訳日:2024-01-23 22:14:36 公開日:2024-01-21
# AV-data2vec:文脈的ターゲット表現を用いた音声音声表現の自己教師型学習

AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations ( http://arxiv.org/abs/2302.06419v2 )

ライセンス: Link先を確認
Jiachen Lian and Alexei Baevski and Wei-Ning Hsu and Michael Auli(参考訳) 自己監督は、良質なシステムを構築するために必要なラベル付きデータの量を大幅に削減することで、音声視覚音声認識に大きな可能性を示した。 しかし、既存の方法は完全にエンドツーエンドではないし、両方のモダリティの合同表現を訓練していない。 本稿では,これらの課題に対処するAV-data2vecを導入し,ユニモーダルケースで成功した文脈化表現の予測に基づく音声視覚表現を構築する。 このモデルは、音声とビデオの両方に共有トランスフォーマーエンコーダを使用し、両方のモダリティを組み合わせて音声認識を改善することができる。 LRS3の結果、AV-data2vecは、同じ量のデータとモデルサイズで、すべての設定下で既存のメソッドを一貫して上回ります。

Self-supervision has shown great potential for audio-visual speech recognition by vastly reducing the amount of labeled data required to build good systems. However, existing methods are either not entirely end-to-end or do not train joint representations of both modalities. In this paper, we introduce AV-data2vec which addresses these challenges and builds audio-visual representations based on predicting contextualized representations which has been successful in the uni-modal case. The model uses a shared transformer encoder for both audio and video and can combine both modalities to improve speech recognition. Results on LRS3 show that AV-data2vec consistently outperforms existing methods under all settings with the same amount of data and model size.
翻訳日:2024-01-23 22:13:57 公開日:2024-01-21
# BEV-MAE:自律走行シナリオにおけるポイントクラウド事前学習のための鳥眼視マズケオートエンコーダ

BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios ( http://arxiv.org/abs/2212.05758v2 )

ライセンス: Link先を確認
Zhiwei Lin, Yongtao Wang, Shengxiang Qi, Nan Dong, Ming-Hsuan Yang(参考訳) 既存のLiDARベースの自動走行シナリオのための3Dオブジェクト検出手法は、主にスクラッチの訓練パラダイムを採用している。 残念ながら、このパラダイムは大規模なラベル付きデータに大きく依存しており、そのコレクションは高価で時間を要する可能性がある。 自己教師付き事前学習は、この広範な注釈付きデータへの依存を緩和するための効果的かつ望ましい方法である。 本稿では,lidarを用いた自律運転における3次元物体検出のための効率的なマスク型オートエンコーダプリトレーニングフレームワークbev-maeを提案する。 具体的には、3Dエンコーダ学習特徴表現をBEV視点でガイドし、事前学習中に複雑なデコーダ設計を避けるために、鳥の目視(BEV)誘導マスキング戦略を提案する。 さらに,マスキングポイントクラウド入力の微調整により3次元エンコーダの一貫した受容場サイズを維持するために,学習可能なポイントトークンを導入する。 自律走行シナリオにおける屋外点雲の特性,すなわち遠方の物体の点雲はより疎いことから,3Dエンコーダが物体検出に不可欠な位置情報を学習できるようにする点密度予測を提案する。 実験の結果,BEV-MAEは最先端の自己管理手法を超越し,良好な事前学習効率が得られた。 さらに、TransFusion-Lに基づいて、BEV-MAEは73.6 NDSと69.6 mAPという最先端のLiDARベースの3Dオブジェクト検出結果を達成する。 ソースコードはhttps://github.com/VDIGPKU/BEV-MAEで公開される。

Existing LiDAR-based 3D object detection methods for autonomous driving scenarios mainly adopt the training-from-scratch paradigm. Unfortunately, this paradigm heavily relies on large-scale labeled data, whose collection can be expensive and time-consuming. Self-supervised pre-training is an effective and desirable way to alleviate this dependence on extensive annotated data. In this work, we present BEV-MAE, an efficient masked autoencoder pre-training framework for LiDAR-based 3D object detection in autonomous driving. Specifically, we propose a bird's eye view (BEV) guided masking strategy to guide the 3D encoder learning feature representation in a BEV perspective and avoid complex decoder design during pre-training. Furthermore, we introduce a learnable point token to maintain a consistent receptive field size of the 3D encoder with fine-tuning for masked point cloud inputs. Based on the property of outdoor point clouds in autonomous driving scenarios, i.e., the point clouds of distant objects are more sparse, we propose point density prediction to enable the 3D encoder to learn location information, which is essential for object detection. Experimental results show that BEV-MAE surpasses prior state-of-the-art self-supervised methods and achieves a favorably pre-training efficiency. Furthermore, based on TransFusion-L, BEV-MAE achieves new state-of-the-art LiDAR-based 3D object detection results, with 73.6 NDS and 69.6 mAP on the nuScenes benchmark. The source code will be released at https://github.com/VDIGPKU/BEV-MAE
翻訳日:2024-01-23 22:13:01 公開日:2024-01-21
# 気候モデルエミュレーションのためのランダム有線ニューラルネットワークの検討

Exploring Randomly Wired Neural Networks for Climate Model Emulation ( http://arxiv.org/abs/2212.03369v4 )

ライセンス: Link先を確認
William Yik, Sam J. Silva, Andrew Geiss, Duncan Watson-Parris(参考訳) 様々な人為的排出シナリオの気候影響を探索することは、気候変動の緩和と適応のための情報的な決定を下す鍵となる。 最先端の地球システムモデルは、これらの影響について詳細な知見を提供することができるが、シナリオごとに計算コストが大きい。 この膨大な計算負荷は、気候モデルエミュレーションのタスクのための安価な機械学習モデルの開発に近年の関心を惹き付けている。 本稿では,この課題に対するランダム配線ニューラルネットワークの有効性について検討する。 本稿では、climatebenchデータセットを用いて、それらの構築方法を記述し、標準feedforwardと比較する。 具体的には,多層パーセプトロン,畳み込みニューラルネットワーク,畳み込み型長期記憶ネットワークの直列接続層をランダムに結合した密集層で置き換え,100万から1000万のパラメータを持つモデルにおけるモデル性能への影響を評価する。 複雑なアーキテクチャの少ないモデルでは、ランダムな配線(多層パーセプトロンでは最大30.4%)で最大の性能向上が見られる。 さらに、24の異なるモデルアーキテクチャ、パラメータ数、予測タスクの組み合わせのうち、標準のネットワークに比べて統計的に有意な性能低下がみられ、14のケースで統計的に有意な改善が見られた。 また,標準フィードフォワード密度層を持つネットワークとランダムに有線層を有するネットワークとの間には,予測速度に有意な差は認められなかった。 これらの結果は、ランダムに配線されたニューラルネットワークが、多くの標準モデルにおいて従来の高密度層を直接置き換えるのに適していることを示唆している。

Exploring the climate impacts of various anthropogenic emissions scenarios is key to making informed decisions for climate change mitigation and adaptation. State-of-the-art Earth system models can provide detailed insight into these impacts, but have a large associated computational cost on a per-scenario basis. This large computational burden has driven recent interest in developing cheap machine learning models for the task of climate model emulation. In this manuscript, we explore the efficacy of randomly wired neural networks for this task. We describe how they can be constructed and compare them to their standard feedforward counterparts using the ClimateBench dataset. Specifically, we replace the serially connected dense layers in multilayer perceptrons, convolutional neural networks, and convolutional long short-term memory networks with randomly wired dense layers and assess the impact on model performance for models with 1 million and 10 million parameters. We find that models with less complex architectures see the greatest performance improvement with the addition of random wiring (up to 30.4% for multilayer perceptrons). Furthermore, out of 24 different model architecture, parameter count, and prediction task combinations, only one saw a statistically significant performance deficit in randomly wired networks compared to their standard counterparts, with 14 cases showing statistically significant improvement. We also find no significant difference in prediction speed between networks with standard feedforward dense layers and those with randomly wired layers. These findings indicate that randomly wired neural networks may be suitable direct replacements for traditional dense layers in many standard models.
翻訳日:2024-01-23 22:12:33 公開日:2024-01-21
# Promptable Game Models: Masked Diffusion Modelsによるテキストガイドゲームシミュレーション

Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion Models ( http://arxiv.org/abs/2303.13472v3 )

ライセンス: Link先を確認
Willi Menapace, Aliaksandr Siarohin, St\'ephane Lathuili\`ere, Panos Achlioptas, Vladislav Golyanik, Sergey Tulyakov, Elisa Ricci(参考訳) ニューラルビデオゲームシミュレーターは、ビデオの生成と編集のための強力なツールとして登場した。 彼らの考えは、エージェントのアクションによって駆動される環境の状態の進化としてゲームを表現することである。 このようなパラダイムは、ユーザがアクションバイアクションをプレイすることを可能にするが、その剛性はより意味的な制御形式を妨げる。 この制限を克服するために、自然言語アクションと所望の状態のセットとして指定されたプロンプトでゲームモデルを拡張する。 結果-aプロンプト可能ゲームモデル(pgm)は、高レベルおよび低レベルなアクションシーケンスを促すことで、ユーザがゲームをプレイできるようにする。 私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。 これは、我々のアニメーションモデルによってカプセル化された"ゲームAI"を学習し、高いレベルの制約を使用してシーンをナビゲートし、敵と対戦し、ポイントを獲得するための戦略を考案する必要があります。 得られた状態を描画するために、合成モデルにカプセル化された合成NeRF表現を用いる。 今後の研究を進めるために,新たに収集,注釈,校正したテニスおよびマインクラフトデータセットを提案する。 提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。 私たちのフレームワーク、データ、モデルはhttps://snap-research.github.io/promptable-game-models/で利用可能です。

Neural video game simulators emerged as powerful tools to generate and edit videos. Their idea is to represent games as the evolution of an environment's state driven by the actions of its agents. While such a paradigm enables users to play a game action-by-action, its rigidity precludes more semantic forms of control. To overcome this limitation, we augment game models with prompts specified as a set of natural language actions and desired states. The result-a Promptable Game Model (PGM)-makes it possible for a user to play the game by prompting it with high- and low-level action sequences. Most captivatingly, our PGM unlocks the director's mode, where the game is played by specifying goals for the agents in the form of a prompt. This requires learning "game AI", encapsulated by our animation model, to navigate the scene using high-level constraints, play against an adversary, and devise a strategy to win a point. To render the resulting state, we use a compositional NeRF representation encapsulated in our synthesis model. To foster future research, we present newly collected, annotated and calibrated Tennis and Minecraft datasets. Our method significantly outperforms existing neural video game simulators in terms of rendering quality and unlocks applications beyond the capabilities of the current state of the art. Our framework, data, and models are available at https://snap-research.github.io/promptable-game-models/.
翻訳日:2024-01-23 22:01:31 公開日:2024-01-21
# diffumask:拡散モデルを用いた意味セグメンテーションのためのピクセルレベルアノテーションによる画像合成

DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models ( http://arxiv.org/abs/2303.11681v4 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Mike Zheng Shou, Hong Zhou, Chunhua Shen(参考訳) ピクセルワイドラベルによる画像の収集と注釈付けは、時間と労力を要する。 対照的に、合成データは生成モデル(例えば、DALL-E、安定拡散)で自由に利用できる。 本稿では,トレーニング中にテキストイメージペアのみを使用するオフザシェルフ安定拡散モデルによって生成された合成画像の正確なセマンティックマスクを自動で取得可能であることを示す。 diffumaskと呼ばれるこのアプローチは、テキストと画像間の相互接続マップの可能性を利用しており、自然かつシームレスにテキスト駆動画像合成をセマンティックマスク生成に拡張する。 diffumaskは、テキストガイドによるクロスアテンション情報を使用して、クラス/単語固有の領域をローカライズする。 このメソッドは明らかにデータ収集とアノテーションのコストを削減するのに役立つ。 実験により、DiffuMaskの合成データに基づいて訓練された既存のセグメンテーション手法は、実際のデータ(VOC 2012 Cityscapes)と競合する性能を発揮することが示された。 いくつかのクラス(例えば鳥)では、DiffuMaskは実データ(3% mIoUギャップ)の最先端結果に近い、有望なパフォーマンスを示す。 さらに、開語彙セグメンテーション(ゼロショット)設定では、DiffuMaskはVOC 2012のUnseenクラスで新しいSOTA結果を達成する。 プロジェクトのWebサイトはhttps://weijiawu.github.io/DiffusionMask/にある。

Collecting and annotating images with pixel-wise labels is time-consuming and laborious. In contrast, synthetic data can be freely available using a generative model (e.g., DALL-E, Stable Diffusion). In this paper, we show that it is possible to automatically obtain accurate semantic masks of synthetic images generated by the Off-the-shelf Stable Diffusion model, which uses only text-image pairs during training. Our approach, called DiffuMask, exploits the potential of the cross-attention map between text and image, which is natural and seamless to extend the text-driven image synthesis to semantic mask generation. DiffuMask uses text-guided cross-attention information to localize class/word-specific regions, which are combined with practical techniques to create a novel high-resolution and class-discriminative pixel-wise mask. The methods help to reduce data collection and annotation costs obviously. Experiments demonstrate that the existing segmentation methods trained on synthetic data of DiffuMask can achieve a competitive performance over the counterpart of real data (VOC 2012, Cityscapes). For some classes (e.g., bird), DiffuMask presents promising performance, close to the stateof-the-art result of real data (within 3% mIoU gap). Moreover, in the open-vocabulary segmentation (zero-shot) setting, DiffuMask achieves a new SOTA result on Unseen class of VOC 2012. The project website can be found at https://weijiawu.github.io/DiffusionMask/.
翻訳日:2024-01-23 22:01:08 公開日:2024-01-21
# 局所接続型ニューラルネットワークにおけるデータ適合性について 量子絡み合いに基づく必要十分条件

What Makes Data Suitable for a Locally Connected Neural Network? A Necessary and Sufficient Condition Based on Quantum Entanglement ( http://arxiv.org/abs/2303.11249v5 )

ライセンス: Link先を確認
Yotam Alexander, Nimrod De La Vega, Noam Razin, Nadav Cohen(参考訳) 深層学習に適したデータ分布をなぜ作るのかという問題は、根本的なオープンな問題である。 局所結合型ニューラルネットワーク(畳み込み型および再帰型ニューラルネットワークを含む、一般的なアーキテクチャ群)に焦点を当て、量子物理学の理論的ツールを採用することでこの問題に対処します。 我々の主理論的結果は、ある局所的に連結されたニューラルネットワークが、データ分布が特定の特徴の正準分割の下で低い量子エンタングルメントを許容している場合に限り、データ分布を正確に予測できることを示している。 この結果の実用的応用として,局所結合型ニューラルネットワークへのデータ分布の適合性を高める前処理法を導出する。 様々なデータセットにまたがる広範囲なモデルによる実験は、我々の発見を実証している。 量子の絡み合いを用いることで、深層学習と現実世界のデータの関係を正式に推論するために、物理学からのツールのさらなる採用が促進されることを願っています。

The question of what makes a data distribution suitable for deep learning is a fundamental open problem. Focusing on locally connected neural networks (a prevalent family of architectures that includes convolutional and recurrent neural networks as well as local self-attention models), we address this problem by adopting theoretical tools from quantum physics. Our main theoretical result states that a certain locally connected neural network is capable of accurate prediction over a data distribution if and only if the data distribution admits low quantum entanglement under certain canonical partitions of features. As a practical application of this result, we derive a preprocessing method for enhancing the suitability of a data distribution to locally connected neural networks. Experiments with widespread models over various datasets demonstrate our findings. We hope that our use of quantum entanglement will encourage further adoption of tools from physics for formally reasoning about the relation between deep learning and real-world data.
翻訳日:2024-01-23 22:00:28 公開日:2024-01-21
# 帯域におけるオンラインモデル選択のためのデータ駆動レグレストバランシング

Data-Driven Regret Balancing for Online Model Selection in Bandits ( http://arxiv.org/abs/2306.02869v2 )

ライセンス: Link先を確認
Aldo Pacchiano, Christoph Dann, Claudio Gentile(参考訳) メタリアナーがベース学習者のプールを処分し,各ベース学習者が推奨する方針に基づいてどの行動を取るか判断する,バンディットフィードバックを伴う確率的環境における逐次意思決定のためのモデル選択を検討する。 モデル選択は, 後悔のバランスによって行われるが, この主題に関する最近の文献とは違って, 基本学習者に関する事前知識を, 候補者の後悔の保証のように想定しない。 したがって、メタ学習者は、(期待された後悔とは対照的に)学習環境において各基礎学習者が生み出した達成された後悔を活用でき、最高の後悔を一つにまとめることができる。 2つのモデル選択アルゴリズムをこの野心的な後悔の概念で設計し,モデル選択の保証を後悔のバランスで証明すると同時に,実際の後悔を扱うという説得力のある実用的メリットを実験的に実証する。

We consider model selection for sequential decision making in stochastic environments with bandit feedback, where a meta-learner has at its disposal a pool of base learners, and decides on the fly which action to take based on the policies recommended by each base learner. Model selection is performed by regret balancing but, unlike the recent literature on this subject, we do not assume any prior knowledge about the base learners like candidate regret guarantees; instead, we uncover these quantities in a data-driven manner. The meta-learner is therefore able to leverage the realized regret incurred by each base learner for the learning environment at hand (as opposed to the expected regret), and single out the best such regret. We design two model selection algorithms operating with this more ambitious notion of regret and, besides proving model selection guarantees via regret balancing, we experimentally demonstrate the compelling practical benefits of dealing with actual regrets instead of candidate regret bounds.
翻訳日:2024-01-23 21:38:52 公開日:2024-01-21
# GNNとカーネル平均埋め込みを用いた原子シミュレーションのための伝達学習

Transfer learning for atomistic simulations using GNNs and kernel mean embeddings ( http://arxiv.org/abs/2306.01589v5 )

ライセンス: Link先を確認
John Falk, Luigi Bonati, Pietro Novelli, Michele Parrinello, Massimiliano Pontil(参考訳) 機械学習を用いて学習した原子間ポテンシャルは原子論シミュレーションにうまく応用されている。 しかし、正確なモデルは大規模なトレーニングデータセットを必要とし、参照計算の生成は計算的に要求される。 この難しさを回避すべく,グラフニューラルネットワーク(gnns)のケミカル環境をカーネル平均埋め込みと共に表現する能力を活用する転送学習アルゴリズムを提案する。 OC20データセット上で事前学習したGNNの特徴マップを抽出し,それを用いて触媒プロセスのシステム固有のデータセットからポテンシャルエネルギー面を学習する。 本手法は, カーネルに化学種情報を組み込むことにより, 性能の向上と解釈性の向上を図っている。 我々は,GNNやリッジレグレッションのみに依存する手法,および類似の微調整手法を改良し,複雑性を増大させ,優れた一般化と転送可能性性能を示す一連の現実的なデータセットを検証した。

Interatomic potentials learned using machine learning methods have been successfully applied to atomistic simulations. However, accurate models require large training datasets, while generating reference calculations is computationally demanding. To bypass this difficulty, we propose a transfer learning algorithm that leverages the ability of graph neural networks (GNNs) to represent chemical environments together with kernel mean embeddings. We extract a feature map from GNNs pre-trained on the OC20 dataset and use it to learn the potential energy surface from system-specific datasets of catalytic processes. Our method is further enhanced by incorporating into the kernel the chemical species information, resulting in improved performance and interpretability. We test our approach on a series of realistic datasets of increasing complexity, showing excellent generalization and transferability performance, and improving on methods that rely on GNNs or ridge regression alone, as well as similar fine-tuning approaches.
翻訳日:2024-01-23 21:37:50 公開日:2024-01-21
# マトリックス製品密度演算子の量子状態トモグラフィ

Quantum State Tomography for Matrix Product Density Operators ( http://arxiv.org/abs/2306.09432v3 )

ライセンス: Link先を確認
Zhen Qin, Casey Jameson, Zhexuan Gong, Michael B. Wakin and Zhihui Zhu(参考訳) 量子状態トモグラフィ(QST)を用いてしばしば達成される実験的測定から量子状態の再構成は、量子デバイスの検証とベンチマークに不可欠である。 しかし、一般の非構造化量子状態に対してQSTを実行するには、最も最適な測定設定であっても、システム内の個々の量子数とともに \emph{exponentially} を成長させる膨大な数の状態コピーが必要である。 幸いなことに、ノイズや中間スケールの量子コンピュータによって生成される状態のような多くの物理量子状態は通常、構造化される。 一次元では、そのような状態は、キュービットの個数に依存しない有限行列/結合次元を持つ行列積作用素(MPO)によってよく近似されることが期待される。 しかしながら、これらの状態に対して効率的なQSTが実行可能であるかどうかはまだ不明である。 本稿では, このギャップを橋渡しし, 圧縮センシングと経験的過程の理論を用いたmposの安定回復のための理論的保証を確立する。 まず、ガウス測度とHaar random rank-one Positive Operator Valued Measures (POVMs)の2種類のランダム測定設定について検討する。 有限結合次元のMPOに含まれる情報は、測定値の統計的誤差を仮定して、キュービット数にのみ依存する多数のランダムな測定値を用いて保存可能であることを示す。 次に、量子コンピュータ上で実装可能なHaarランダムランクワンPOVMを用いて、MPOベースのQSTを物理量子測定により研究する。 我々は、MPO状態の有界回復誤差を保証するために、キュービット数における状態コピー数 \emph{polynomial} だけが必要であることを証明した。

The reconstruction of quantum states from experimental measurements, often achieved using quantum state tomography (QST), is crucial for the verification and benchmarking of quantum devices. However, performing QST for a generic unstructured quantum state requires an enormous number of state copies that grows \emph{exponentially} with the number of individual quanta in the system, even for the most optimal measurement settings. Fortunately, many physical quantum states, such as states generated by noisy, intermediate-scale quantum computers, are usually structured. In one dimension, such states are expected to be well approximated by matrix product operators (MPOs) with a finite matrix/bond dimension independent of the number of qubits, therefore enabling efficient state representation. Nevertheless, it is still unclear whether efficient QST can be performed for these states in general. In this paper, we attempt to bridge this gap and establish theoretical guarantees for the stable recovery of MPOs using tools from compressive sensing and the theory of empirical processes. We begin by studying two types of random measurement settings: Gaussian measurements and Haar random rank-one Positive Operator Valued Measures (POVMs). We show that the information contained in an MPO with a finite bond dimension can be preserved using a number of random measurements that depends only \emph{linearly} on the number of qubits, assuming no statistical error of the measurements. We then study MPO-based QST with physical quantum measurements through Haar random rank-one POVMs that can be implemented on quantum computers. We prove that only a \emph{polynomial} number of state copies in the number of qubits is required to guarantee bounded recovery error of an MPO state.
翻訳日:2024-01-23 21:25:31 公開日:2024-01-21
# 顔修復用デュアル関連エンコーダ

Dual Associated Encoder for Face Restoration ( http://arxiv.org/abs/2308.07314v2 )

ライセンス: Link先を確認
Yu-Ju Tsai, Yu-Lun Liu, Lu Qi, Kelvin C.K. Chan, Ming-Hsuan Yang(参考訳) 低品質(LQ)画像から顔の細部を復元することは、野生の様々な劣化によって引き起こされる不作為、依然として困難な問題である。 既存のコードブックは、オートエンコーダと高品質(HQ)機能の学習コードブックを活用することで、予期せぬ品質を達成することで、その不備を軽減します。 しかし、このパラダイムの既存のアプローチは、LQとHQイメージ間のドメインギャップを無視して、HQイメージの復元のためにHQデータに事前訓練された単一のエンコーダに依存することが多い。 結果として、LQ入力の符号化が不十分になり、最適化性能が低下する可能性がある。 そこで本研究では,DAEFRという新しいデュアルブランチフレームワークを提案する。 提案手法では,LQ入力から重要な情報を抽出する補助的なLQ分岐を導入する。 さらに,2つのブランチ間の効果的なシナジーを促進し,コード予測と出力品質を向上させるためのアソシエーショントレーニングも取り入れた。 合成および実世界のデータセットにおけるDAEFRの有効性を評価し,顔の詳細の復元において優れた性能を示す。 プロジェクトページ: https://liagm.github.io/DAEFR/

Restoring facial details from low-quality (LQ) images has remained a challenging problem due to its ill-posedness induced by various degradations in the wild. The existing codebook prior mitigates the ill-posedness by leveraging an autoencoder and learned codebook of high-quality (HQ) features, achieving remarkable quality. However, existing approaches in this paradigm frequently depend on a single encoder pre-trained on HQ data for restoring HQ images, disregarding the domain gap between LQ and HQ images. As a result, the encoding of LQ inputs may be insufficient, resulting in suboptimal performance. To tackle this problem, we propose a novel dual-branch framework named DAEFR. Our method introduces an auxiliary LQ branch that extracts crucial information from the LQ inputs. Additionally, we incorporate association training to promote effective synergy between the two branches, enhancing code prediction and output quality. We evaluate the effectiveness of DAEFR on both synthetic and real-world datasets, demonstrating its superior performance in restoring facial details. Project page: https://liagm.github.io/DAEFR/
翻訳日:2024-01-23 21:17:40 公開日:2024-01-21
# LaCAM$^\ast$:リアルタイム・大規模・準最適マルチエージェントパスフィニングを目指して

Engineering LaCAM$^\ast$: Towards Real-Time, Large-Scale, and Near-Optimal Multi-Agent Pathfinding ( http://arxiv.org/abs/2308.04292v2 )

ライセンス: Link先を確認
Keisuke Okumura(参考訳) 本稿では,最近提案されたLaCAM*アルゴリズムの改良を通じて,リアルタイム,大規模,準最適マルチエージェントパスフィンディング(MAPF)の課題に対処する。 LaCAM*はスケーラブルな検索ベースのアルゴリズムであり、累積遷移コストに対する最適解の最終的な発見を保証する。 様々な最先端MAPF法を超越した計画成功率を示す一方で、初期解の質は最適には程遠いものであり、最適への収束速度は遅い。 これらの制限を克服するために,他のMAPF法からインスピレーションを得た改良手法をいくつか紹介する。 これらの手法の融合がLaCAM*の解の質を著しく向上させ、MAPFアルゴリズムの境界をさらに推し進めるという実証的な証拠を提供する。

This paper addresses the challenges of real-time, large-scale, and near-optimal multi-agent pathfinding (MAPF) through enhancements to the recently proposed LaCAM* algorithm. LaCAM* is a scalable search-based algorithm that guarantees the eventual finding of optimal solutions for cumulative transition costs. While it has demonstrated remarkable planning success rates, surpassing various state-of-the-art MAPF methods, its initial solution quality is far from optimal, and its convergence speed to the optimum is slow. To overcome these limitations, this paper introduces several improvement techniques, partly drawing inspiration from other MAPF methods. We provide empirical evidence that the fusion of these techniques significantly improves the solution quality of LaCAM*, thus further pushing the boundaries of MAPF algorithms.
翻訳日:2024-01-23 21:16:49 公開日:2024-01-21
# ガイド付きAPSFとグラディエント適応畳み込みを用いた夜間ヘイズ画像の可視性向上

Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive Convolution ( http://arxiv.org/abs/2308.01738v4 )

ライセンス: Link先を確認
Yeying Jin, Beibei Lin, Wending Yan, Yuan Yuan, Wei Ye, and Robby T. Tan(参考訳) 暗い夜のシーンの視認性は、低光度、激しい輝き、光散乱、多色光源の存在など、複数の要因によってしばしば低下する。 既存の夜間の消光法は、しばしば光や低照度の条件を扱うのに苦労し、過度に暗い視界または抑圧されていない光の出力をもたらす。 本稿では,明度を抑え,低照度領域を増大させることにより,夜間の暗視画像からの視認性を高める。 我々のフレームワークは、発光効果を扱うために、蛍光光対から学習する。 具体的には、夜間画像の光源を検出するために光源認識ネットワークを提案し、次にAPSF(Atmospheric Point Spread Function)誘導光描画を行う。 私たちのフレームワークは、レンダリングされたイメージでトレーニングされ、グロー抑制につながります。 さらに,グラデーション適応畳み込みを利用して,エッジやテクスチャをぼんやりとしたシーンで捉える。 抽出されたエッジとテクスチャを活用することで,重要な構造的詳細を失うことなく,シーンのコントラストを高める。 低光強度を高めるために,ネットワークは注意マップを学習し,ガンマ補正によって調整する。 この注目は、低照度領域に高い値と、光沢領域に低い値を持つ。 リアルタイムヘイズ画像の広範囲評価を行い,本手法の有効性を実証した。 実験の結果,GTA5夜間ヘイズデータセットではPSNRが30.38dBで13%向上した。 私たちのデータとコードはhttps://github.com/jinyeying/nighttime_dehazeで利用可能です。

Visibility in hazy nighttime scenes is frequently reduced by multiple factors, including low light, intense glow, light scattering, and the presence of multicolored light sources. Existing nighttime dehazing methods often struggle with handling glow or low-light conditions, resulting in either excessively dark visuals or unsuppressed glow outputs. In this paper, we enhance the visibility from a single nighttime haze image by suppressing glow and enhancing low-light regions. To handle glow effects, our framework learns from the rendered glow pairs. Specifically, a light source aware network is proposed to detect light sources of night images, followed by the APSF (Atmospheric Point Spread Function)-guided glow rendering. Our framework is then trained on the rendered images, resulting in glow suppression. Moreover, we utilize gradient-adaptive convolution, to capture edges and textures in hazy scenes. By leveraging extracted edges and textures, we enhance the contrast of the scene without losing important structural details. To boost low-light intensity, our network learns an attention map, then adjusted by gamma correction. This attention has high values on low-light regions and low values on haze and glow regions. Extensive evaluation on real nighttime haze images, demonstrates the effectiveness of our method. Our experiments demonstrate that our method achieves a PSNR of 30.38dB, outperforming state-of-the-art methods by 13% on GTA5 nighttime haze dataset. Our data and code is available at https://github.com/jinyeying/nighttime_dehaze.
翻訳日:2024-01-23 21:16:32 公開日:2024-01-21
# feddrl:段階的強化学習に基づく信頼度の高いフェデレーション学習モデル融合法

FedDRL: A Trustworthy Federated Learning Model Fusion Method Based on Staged Reinforcement Learning ( http://arxiv.org/abs/2307.13716v3 )

ライセンス: Link先を確認
Leiming Chen, Cihao Dong, Sibo Qiao, Ziling Huang, Yuming Nie, Zhaoxiang Hou, Chee Wei Tan(参考訳) 従来の連合学習では、各クライアントモデルの重みを計算するためにサンプル数を使用し、この固定重み値を使ってグローバルモデルを融合する。 しかし、現実的なシナリオでは、各クライアントのデバイスとデータの均一性は、各クライアントのモデルの品質に違いをもたらす。 したがって、グローバルモデルへの貢献は、サンプルサイズによって完全には決定されない。 さらに、クライアントが意図的に低品質または悪意のあるモデルをアップロードした場合、集約にこれらのモデルを使用することで、グローバルモデルの精度が大幅に低下する。 従来のフェデレーション学習アルゴリズムはこれらの問題に対処しない。 本稿では,2段階のアプローチに基づく強化学習を用いたモデル融合手法であるFedDRLを提案する。 最初の段階では、悪意あるモデルをフィルタリングし、信頼されたクライアントモデルを選択してモデル融合に参加する。 第2段階では、FedDRLアルゴリズムは信頼されたクライアントモデルの重みを適応的に調整し、最適なグローバルモデルを集約する。 また,5つのモデル融合シナリオを定義し,それらのシナリオにおける2つのベースラインアルゴリズムとの比較を行った。 実験結果から,本アルゴリズムは精度を維持しつつ,他のアルゴリズムよりも信頼性が高いことがわかった。

Traditional federated learning uses the number of samples to calculate the weights of each client model and uses this fixed weight value to fusion the global model. However, in practical scenarios, each client's device and data heterogeneity leads to differences in the quality of each client's model. Thus the contribution to the global model is not wholly determined by the sample size. In addition, if clients intentionally upload low-quality or malicious models, using these models for aggregation will lead to a severe decrease in global model accuracy. Traditional federated learning algorithms do not address these issues. To solve this probelm, we propose FedDRL, a model fusion approach using reinforcement learning based on a two staged approach. In the first stage, Our method could filter out malicious models and selects trusted client models to participate in the model fusion. In the second stage, the FedDRL algorithm adaptively adjusts the weights of the trusted client models and aggregates the optimal global model. We also define five model fusion scenarios and compare our method with two baseline algorithms in those scenarios. The experimental results show that our algorithm has higher reliability than other algorithms while maintaining accuracy.
翻訳日:2024-01-23 21:15:27 公開日:2024-01-21
# ランダム量子回路を用いたランダム投影

Random Projection using Random Quantum Circuits ( http://arxiv.org/abs/2308.13919v4 )

ライセンス: Link先を確認
Keerthi Kumaran, Manas Sajjan, Sangchul Oh, Sabre Kais(参考訳) googleのsycamoreプロセッサによるランダムサンプリングタスクは、"quantum supremacy era"を垣間見せてくれた。 このことは、(擬似)ランダム回路からの出力をサンプリングするこの抽象的なタスクにおいて、ランダム量子回路のパワーにいくつかの注目を向けている。 本稿では,大規模低ランクデータセットの次元縮小における局所ランダム量子回路の短期的利用について検討する。 ランダム射影法という,十分に研究された次元性低減手法を応用した。 この方法は、画像処理、ロジスティック回帰、低ランク行列のエントロピー計算など、様々な用途で広く利用されている。 我々は、十分に短い深さ (\sim o(n)$) の局所ランダム量子回路の行列表現が、ランダム射影のよい候補となることを証明している。 我々は,MNISTおよびCIFAR-100画像データセットにおける計算コストの高い古典的主成分分析から,その射影能力がそれほど遠くないことを示す。 また、画像データセットの次元性低減や、大きな低ランク密度行列のノイマンエントロピーの計算において、一般的な古典的ランダム射影に対する量子ランダム射影の性能をベンチマークする。 そして最後に、変分量子特異値分解を用いて、大きな低ランク行列を低次元に投影した量子ランダムの後、支配的な特異値を持つ特異ベクトルを抽出する短期的な実装を示す。 このような数値実験はすべて、局所ランダム回路が、縮小次元における大きなデータセットの性質の頑健な保持を伴う十分短い深さで大きなヒルベルト空間をランダム化する能力を示す。

The random sampling task performed by Google's Sycamore processor gave us a glimpse of the "Quantum Supremacy era". This has definitely shed some spotlight on the power of random quantum circuits in this abstract task of sampling outputs from the (pseudo-) random circuits. In this manuscript, we explore a practical near-term use of local random quantum circuits in dimensional reduction of large low-rank data sets. We make use of the well-studied dimensionality reduction technique called the random projection method. This method has been extensively used in various applications such as image processing, logistic regression, entropy computation of low-rank matrices, etc. We prove that the matrix representations of local random quantum circuits with sufficiently shorter depths ($\sim O(n)$) serve as good candidates for random projection. We demonstrate numerically that their projection abilities are not far off from the computationally expensive classical principal components analysis on MNIST and CIFAR-100 image data sets. We also benchmark the performance of quantum random projection against the commonly used classical random projection in the tasks of dimensionality reduction of image datasets and computing Von Neumann entropies of large low-rank density matrices. And finally using variational quantum singular value decomposition, we demonstrate a near-term implementation of extracting the singular vectors with dominant singular values after quantum random projecting a large low-rank matrix to lower dimensions. All such numerical experiments unequivocally demonstrate the ability of local random circuits to randomize a large Hilbert space at sufficiently shorter depths with robust retention of properties of large datasets in reduced dimensions.
翻訳日:2024-01-23 21:04:17 公開日:2024-01-21
# Animal3D:3Dの動物写真と形状の総合データセット

Animal3D: A Comprehensive Dataset of 3D Animal Pose and Shape ( http://arxiv.org/abs/2308.11737v2 )

ライセンス: Link先を確認
Jiacong Xu, Yi Zhang, Jiawei Peng, Wufei Ma, Artur Jesslen, Pengliang Ji, Qixin Hu, Jiehua Zhang, Qihao Liu, Jiahao Wang, Wei Ji, Chen Wang, Xiaoding Yuan, Prakhar Kaushik, Guofeng Zhang, Jie Liu, Yushan Xie, Yawen Cui, Alan Yuille, Adam Kortylewski(参考訳) 3Dの姿勢と形状を正確に推定することは動物行動を理解するための重要なステップであり、野生生物保護のような下流の多くの応用に利益をもたらす可能性がある。 しかし、この分野の研究は、高品質な3dポーズと形状アノテーションを備えた包括的で多様なデータセットが欠如していることから遠ざかっている。 本稿では,哺乳類の3Dポーズと形状推定のための包括的データセットであるAnimal3Dを提案する。 動物3Dは、40種の哺乳類から収集された3379枚の画像、26個のキーポイントの高品質なアノテーション、特にSMALモデルのポーズと形状パラメータで構成されている。 すべてのアノテーションはマルチステージプロセスで手動でラベル付けされチェックされ、高品質な結果が得られます。 The Animal3D data based on the Animal3D dataset, we benchmark representative shape and pose Estimation model at (1) 教師付き学習, (2) 合成画像から実写への変換, 3) 微調整された人間のポーズと形状推定モデル。 実験の結果, 個体間の3次元形状と姿勢の予測は, ヒトの姿勢推定の大幅な進歩にもかかわらず, 極めて困難な課題であることがわかった。 さらに, 合成事前学習は, モデル性能を高めるための有効な戦略であることを示す。 全体として、animal3dは動物の3dポーズと形状推定の将来の研究を促進するための新しい方向を開き、一般公開されている。

Accurately estimating the 3D pose and shape is an essential step towards understanding animal behavior, and can potentially benefit many downstream applications, such as wildlife conservation. However, research in this area is held back by the lack of a comprehensive and diverse dataset with high-quality 3D pose and shape annotations. In this paper, we propose Animal3D, the first comprehensive dataset for mammal animal 3D pose and shape estimation. Animal3D consists of 3379 images collected from 40 mammal species, high-quality annotations of 26 keypoints, and importantly the pose and shape parameters of the SMAL model. All annotations were labeled and checked manually in a multi-stage process to ensure highest quality results. Based on the Animal3D dataset, we benchmark representative shape and pose estimation models at: (1) supervised learning from only the Animal3D data, (2) synthetic to real transfer from synthetically generated images, and (3) fine-tuning human pose and shape estimation models. Our experimental results demonstrate that predicting the 3D shape and pose of animals across species remains a very challenging task, despite significant advances in human pose estimation. Our results further demonstrate that synthetic pre-training is a viable strategy to boost the model performance. Overall, Animal3D opens new directions for facilitating future research in animal 3D pose and shape estimation, and is publicly available.
翻訳日:2024-01-23 21:03:02 公開日:2024-01-21
# 超高速・超軽量ネットワークを用いた耳疾患のリアルタイム診断システム

Ultrafast and Ultralight Network-Based Intelligent System for Real-time Diagnosis of Ear diseases in Any Devices ( http://arxiv.org/abs/2308.10610v2 )

ライセンス: Link先を確認
Yubiao Yue, Xinyu Zeng, Xiaoqiang Shi, Meiping Zhang, Haihua Liang, Fan Zhang, Yanmei Chen, Zefeng Xie, Wenrui Wu, Zhenzhang Li(参考訳) 従来の耳疾患の診断は経験豊富な専門医や専門機器に大きく依存しており、しばしば誤診、治療遅延、一部の患者に対する金銭的負担が生じる。 効率的な耳疾患診断のためのディープラーニングモデルの利用は、効果的で安価であることが証明されている。 しかし、既存の研究では、配置に必要なモデル推論速度とパラメータサイズを見落としていた。 これらの課題に対処するため,2つの病院から8つの耳疾患カテゴリと正常な耳道サンプルからなる大規模データセットを構築した。 ShuffleNetV2に触発されて,リアルタイム耳疾患診断を可能にする超高速・超軽量ネットワークBest-EarNetを開発した。 Best-EarNetは、グローバルとローカルの空間情報を同時にキャプチャし、様々なレベルの特徴マップ内の重要な領域に集中するようにネットワークを誘導し、低い精度の問題を緩和する、新しいローカル・グローバル空間特徴融合モジュールを組み込んでいる。 さらに,効率的なパラメータ最適化のために,複数の補助分類ヘッドを用いる。 0.77Mパラメータで、Best-EarNetはCPU上で80秒毎の平均フレームを達成する。 転送学習と22,581の画像による5倍クロスバリデーションを用いることで、95.23%の精度が得られる。 病院2の1,652枚の画像の外部検査では、その性能が92.14%の精度で検証されている。 最先端ネットワークと比較して、Best-EarNetは実用用途に新しい最先端(SOTA)を確立する。 最も重要なことは、Ear Keeperと呼ばれるインテリジェントな診断システムを開発し、一般的な電子機器にデプロイできることです。 小型の電子内視鏡を操作することで、ユーザはリアルタイムビデオを用いて耳道の包括的スキャンと診断を行うことができる。 本研究は耳内内視鏡および他の医用内視鏡画像認識応用のための新しいパラダイムを提供する。

Traditional ear disease diagnosis heavily depends on experienced specialists and specialized equipment, frequently resulting in misdiagnoses, treatment delays, and financial burdens for some patients. Utilizing deep learning models for efficient ear disease diagnosis has proven effective and affordable. However, existing research overlooked model inference speed and parameter size required for deployment. To tackle these challenges, we constructed a large-scale dataset comprising eight ear disease categories and normal ear canal samples from two hospitals. Inspired by ShuffleNetV2, we developed Best-EarNet, an ultrafast and ultralight network enabling real-time ear disease diagnosis. Best-EarNet incorporates the novel Local-Global Spatial Feature Fusion Module which can capture global and local spatial information simultaneously and guide the network to focus on crucial regions within feature maps at various levels, mitigating low accuracy issues. Moreover, our network uses multiple auxiliary classification heads for efficient parameter optimization. With 0.77M parameters, Best-EarNet achieves an average frames per second of 80 on CPU. Employing transfer learning and five-fold cross-validation with 22,581 images from Hospital-1, the model achieves an impressive 95.23% accuracy. External testing on 1,652 images from Hospital-2 validates its performance, yielding 92.14% accuracy. Compared to state-of-the-art networks, Best-EarNet establishes a new state-of-the-art (SOTA) in practical applications. Most importantly, we developed an intelligent diagnosis system called Ear Keeper, which can be deployed on common electronic devices. By manipulating a compact electronic otoscope, users can perform comprehensive scanning and diagnosis of the ear canal using real-time video. This study provides a novel paradigm for ear endoscopy and other medical endoscopic image recognition applications.
翻訳日:2024-01-23 21:02:38 公開日:2024-01-21
# ChaCha:大きな言語モデルを活用して子どもたちに個人的出来事に対する感情を共有する

ChaCha: Leveraging Large Language Models to Prompt Children to Share Their Emotions about Personal Events ( http://arxiv.org/abs/2309.12244v2 )

ライセンス: Link先を確認
Woosuk Seo, Chanmo Yang, Young-Ho Kim(参考訳) 子供は通常、物語や感情を他人、特に家族と共有することで感情を識別し表現することを学ぶ。 しかし,親や兄弟姉妹は,まだコミュニケーション能力が発達しているため,子どもと感情的なコミュニケーションをとることが困難である。 チャットボットChaChaは、子どもたちに個人的な出来事と関連する感情を共有することを奨励し、指導する。 ChaChaはステートマシンと大きな言語モデル(LLM)を組み合わせて、自由形式の会話をしながら対話をトラックする。 20人の子供(8-12歳)を対象にした探索的研究を通じて,ChaChaが子どもに個人の出来事を共有し,関連する感情を記述するための指導を行う方法を検討した。 参加者はChaChaを親しい友人と認識し、家族旅行や個人的業績など様々な話題について話を共有した。 本研究は, 子どもの感情共有を支援するために, LLMを利用して子どもに優しいチャットボットを設計する機会について論じる。

Children typically learn to identify and express emotions through sharing their stories and feelings with others, particularly their family. However, it is challenging for parents or siblings to have emotional communication with children since children are still developing their communication skills. We present ChaCha, a chatbot that encourages and guides children to share personal events and associated emotions. ChaCha combines a state machine and large language models (LLMs) to keep the dialogue on track while carrying on free-form conversations. Through an exploratory study with 20 children (aged 8-12), we examine how ChaCha prompts children to share personal events and guides them to describe associated emotions. Participants perceived ChaCha as a close friend and shared their stories on various topics, such as family trips and personal achievements. Based on the findings, we discuss opportunities for leveraging LLMs to design child-friendly chatbots to support children in sharing emotions.
翻訳日:2024-01-23 20:53:38 公開日:2024-01-21
# SingFake: 音声のディープフェイク検出

SingFake: Singing Voice Deepfake Detection ( http://arxiv.org/abs/2309.07525v2 )

ライセンス: Link先を確認
Yongyi Zang, You Zhang, Mojtaba Heydari, Zhiyao Duan(参考訳) 歌声合成の台頭は、無許可音声使用に対するアーティストや業界の利害関係者にとって重要な課題となっている。 合成された音声とは異なり、合成された歌声は、合成のアーティファクトを隠す強固な背景音楽を含む歌で通常リリースされる。 さらに、歌声は、発話と異なる音響的・言語的特徴を示す。 これらの特徴により、歌声のディープフェイク検出は、合成音声検出とはかなり異なる問題となる。 本研究では,歌唱音声のディープフェイク検出タスクを提案する。 SingFakeは、40人の歌手の5つの言語で28.93時間のボナフィドと29.40時間のディープフェイク・ソングクリップからなる、初めて編集されたヴィルド・イン・ザ・ワイルドのデータセットである。 テストセットにはさまざまなシナリオが含まれています。 次に、SingFakeを用いて、発話を訓練した4つの最先端音声対策システムを評価する。 音声テストデータでは,これらのシステムの性能が著しく遅れていることがわかった。 SingFakeでのトレーニングでは、分離されたボーカルトラックまたは曲のミックスを使用して、これらのシステムは大幅に改善されている。 しかし,我々の評価では,歌手やコミュニケーションコーデック,言語,音楽的文脈にかかわる課題も特定し,歌声深度検出の専門的な研究を呼び掛けている。 singfakeデータセットと関連するリソースは、https://www.singfake.org/で入手できる。

The rise of singing voice synthesis presents critical challenges to artists and industry stakeholders over unauthorized voice usage. Unlike synthesized speech, synthesized singing voices are typically released in songs containing strong background music that may hide synthesis artifacts. Additionally, singing voices present different acoustic and linguistic characteristics from speech utterances. These unique properties make singing voice deepfake detection a relevant but significantly different problem from synthetic speech detection. In this work, we propose the singing voice deepfake detection task. We first present SingFake, the first curated in-the-wild dataset consisting of 28.93 hours of bonafide and 29.40 hours of deepfake song clips in five languages from 40 singers. We provide a train/validation/test split where the test sets include various scenarios. We then use SingFake to evaluate four state-of-the-art speech countermeasure systems trained on speech utterances. We find these systems lag significantly behind their performance on speech test data. When trained on SingFake, either using separated vocal tracks or song mixtures, these systems show substantial improvement. However, our evaluations also identify challenges associated with unseen singers, communication codecs, languages, and musical contexts, calling for dedicated research into singing voice deepfake detection. The SingFake dataset and related resources are available at https://www.singfake.org/.
翻訳日:2024-01-23 20:52:15 公開日:2024-01-21
# 反ド・ジッター時空の境界に直交するブランの表面カシミール密度

Surface Casimir densities on branes orthogonal to the boundary of anti-de Sitter spacetime ( http://arxiv.org/abs/2309.06408v2 )

ライセンス: Link先を確認
A. A. Saharian(参考訳) 反ドジッター(AdS)時空の境界に直交する2つのブレーンの幾何学において、一般的な曲率結合を有するスカラー場に対する表面エネルギー-運動量テンソル(SEMT)の真空期待値について検討した。 ブレーン上のロビン境界条件では、SEMTはブレーンの自己エネルギーと第2ブレーンの存在によって誘導される部分に対応するコントリビューションに分解される。 第1部のみに再正規化が必要であり、対応する正則化には一般化ゼータ関数法を用いる。 誘導SEMTは有限であり、再正規化の曖昧さがない。 ブレーン上に住んでいる観測者にとって、対応する状態方程式は宇宙定数型である。 境界条件やブレーン間の分離によっては、表面エネルギー密度は正または負のいずれかである。 ブレーンに誘起されるエネルギー密度は、そのブレーン上のディリクレおよびノイマン境界条件の特別な場合において消失する。 誘導SEMTに対する重力の影響は、AdS時空の曲率半径よりも大きい順序のブレーン間の分離に不可欠である。 大きな分離限界において、semt の崩壊は、適切な分離の関数として、質量と質量の両方の場に対する力の法則に従う。 ミンコフスキーバルクの平行板や大規模フィールドの場合、対応する期待値の落差は指数的である。

We investigate the vacuum expectation value of the surface energy-momentum tensor (SEMT) for a scalar field with general curvature coupling in the geometry of two branes orthogonal to the boundary of anti-de Sitter (AdS) spacetime. For Robin boundary conditions on the branes, the SEMT is decomposed into the contributions corresponding to the self-energies of the branes and the parts induced by the presence of the second brane. The renormalization is required for the first parts only and for the corresponding regularization the generalized zeta function method is employed. The induced SEMT is finite and is free from renormalization umbiguities. For an observer living on the brane, the corresponding equation of state is of the cosmological constant type. Depending on the boundary conditions and on the separation between the branes, the surface energy densities can be either positive or negative. The energy density induced on the brane vanishes in special cases of Dirichlet and Neumann boundary conditions on that brane. The effect of gravity on the induced SEMT is essential at separations between the branes of the order or larger than the curvature radius for AdS spacetime. In the large separation limit the decay of the SEMT, as a function of the proper separation, follows a power law for both massless and massive fields. For parallel plates in Minkowski bulk and for massive fields the fall-off of the corresponding expectation value is exponential.
翻訳日:2024-01-23 20:51:53 公開日:2024-01-21
# DePT:パラメータ効率の良い微調整のための分解プロンプトチューニング

DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2309.05173v4 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル(lm)の入力に少量の訓練可能なソフト(連続)プロンプトベクトルが固定されるプロンプトチューニング(pt)は、パラメータ効率の良い微調整(peft)のための様々なタスクやモデルに対して有望な結果を示している。 PTは、トレーニング可能なパラメータが少なくて競合性能を保ち、モデルのサイズが拡大するにつれてパラメータを劇的にスケールアップしないため、他のPEFTアプローチと際立っている。 しかし、PTはソフトプロンプトトークンを導入し、入力シーケンスが長くなり、Transformerの2次複雑さによるトレーニングや推論時間、メモリ使用量に大きな影響を及ぼす。 特に大きな言語モデル(llm)では、日々の大量のクエリに直面する。 この問題に対処するために,ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された2つの低ランク行列に分解するDecomposed Prompt Tuning (DePT)を提案する。 これにより、トレーニング可能なパラメータサイズを変更することなく、バニラPTとその変種と比較してメモリと時間コストを大幅に削減しながら、パフォーマンスが向上する。 23の自然言語処理(NLP)と視覚言語(VL)タスクに関する広範な実験を通じて、DePTが最先端のPEFTアプローチより優れていることを示す。 さらに,モデルサイズが大きくなるにつれてdeptがより効率的になることを示す。 さらに,DePTは数ショットの学習環境においてパラメータ効率のよい伝達学習とシームレスに統合され,様々なモデルアーキテクチャやサイズへの適応性を強調している。

Prompt tuning (PT), where a small amount of trainable soft (continuous) prompt vectors is affixed to the input of language models (LM), has shown promising results across various tasks and models for parameter-efficient fine-tuning (PEFT). PT stands out from other PEFT approaches because it maintains competitive performance with fewer trainable parameters and does not drastically scale up its parameters as the model size expands. However, PT introduces additional soft prompt tokens, leading to longer input sequences, which significantly impacts training and inference time and memory usage due to the Transformer's quadratic complexity. Particularly concerning for Large Language Models (LLMs) that face heavy daily querying. To address this issue, we propose Decomposed Prompt Tuning (DePT), which decomposes the soft prompt into a shorter soft prompt and a pair of low-rank matrices that are then optimised with two different learning rates. This allows DePT to achieve better performance while saving substantial memory and time costs compared to vanilla PT and its variants, without changing trainable parameter sizes. Through extensive experiments on 23 natural language processing (NLP) and vision-language (VL) tasks, we demonstrate that DePT outperforms state-of-the-art PEFT approaches, including the full fine-tuning baseline, in some scenarios. Additionally, we empirically show that DEPT grows more efficient as the model size increases. Our further study reveals that DePT integrates seamlessly with parameter-efficient transfer learning in the few-shot learning setting and highlights its adaptability to various model architectures and sizes.
翻訳日:2024-01-23 20:51:08 公開日:2024-01-21
# グラディエント対応水中画像強調のための空間-周波数相互作用

Toward Sufficient Spatial-Frequency Interaction for Gradient-aware Underwater Image Enhancement ( http://arxiv.org/abs/2309.04089v2 )

ライセンス: Link先を確認
Chen Zhao, Weiling Cai, Chenyu Dong, Ziqi Zeng(参考訳) 水中画像は複雑で多様な劣化に悩まされ、必然的に水中視覚タスクのパフォーマンスに影響する。 しかし,既存の学習に基づく水中画像強調法 (uie) では,主に空間領域の劣化を復元し,フーリエ周波数情報に注意を払うことがほとんどである。 本稿では,空間周波数相互作用と勾配マップ,すなわち2段階からなるSFGNetに基づく新しいUIEフレームワークを開発する。 具体的には,2つのブロック間の相互接続によって十分な空間-周波数相互作用を実現するために,設計した高密度フーリエ融合ブロックと高密度空間融合ブロックを含む高密度空間-周波数融合ネットワーク(DSFFNet)を提案する。 第2段階では、勾配マップによる画像の知覚的詳細と幾何学的構造をさらに強化する勾配対応補正器(GAC)を提案する。 2つの実世界の水中画像データセットによる実験結果から,本手法は水中画像の高度化に成功し,視覚的品質向上の競争力を発揮することが示された。 コードはhttps://github.com/zhihefang/sfgnetで入手できる。

Underwater images suffer from complex and diverse degradation, which inevitably affects the performance of underwater visual tasks. However, most existing learning-based Underwater image enhancement (UIE) methods mainly restore such degradations in the spatial domain, and rarely pay attention to the fourier frequency information. In this paper, we develop a novel UIE framework based on spatial-frequency interaction and gradient maps, namely SFGNet, which consists of two stages. Specifically, in the first stage, we propose a dense spatial-frequency fusion network (DSFFNet), mainly including our designed dense fourier fusion block and dense spatial fusion block, achieving sufficient spatial-frequency interaction by cross connections between these two blocks. In the second stage, we propose a gradient-aware corrector (GAC) to further enhance perceptual details and geometric structures of images by gradient map. Experimental results on two real-world underwater image datasets show that our approach can successfully enhance underwater images, and achieves competitive performance in visual quality improvement. The code is available at https://github.com/zhihefang/SFGNet.
翻訳日:2024-01-23 20:50:15 公開日:2024-01-21
# 多様なポートフォリオにおけるトレーディングのための強化学習手法の評価

Evaluation of Reinforcement Learning Techniques for Trading on a Diverse Portfolio ( http://arxiv.org/abs/2309.03202v2 )

ライセンス: Link先を確認
Ishan S. Khare, Tarun K. Martheswaran, Akshana Dassanaike-Perera(参考訳) 本研究は,S&P500指数上での強化学習の実現可能性に関する重要な研究課題に答えようとしている。 価値反復(vi)のオンポリシー手法と、q-learningのオフポリシー手法とともに、状態-アクション-reward-state-action(sarsa)が実装されている。 モデルは2000年から2023年までの数年間の株式市場データからなるデータセット上でトレーニングされ、テストされる。 この分析は、covid-19パンデミックの年数を含む2つの異なる期間を使ってモデルをトレーニングし、テストした結果と結果を提示する。 その結果、トレーニングデータセットにおけるCOVID-19期間の市場データを含めると、ベースライン戦略よりも優れたパフォーマンスが得られることが示唆された。 テスト中、オンラインアプローチ(VIとSARSA)はQラーニングを上回っ、バイアス分散トレードオフの影響とより単純なポリシーの一般化能力を強調した。 しかし,Q-ラーニングのパフォーマンスは,今後の市場環境の安定性によって異なる可能性がある。 今後の取り組みとして、さまざまな株式の試験および取引におけるqラーニングポリシーの更新を含む実験が提案されている。 また,モデル訓練のための代替経済指標の探索も提案している。

This work seeks to answer key research questions regarding the viability of reinforcement learning over the S&P 500 index. The on-policy techniques of Value Iteration (VI) and State-action-reward-state-action (SARSA) are implemented along with the off-policy technique of Q-Learning. The models are trained and tested on a dataset comprising multiple years of stock market data from 2000-2023. The analysis presents the results and findings from training and testing the models using two different time periods: one including the COVID-19 pandemic years and one excluding them. The results indicate that including market data from the COVID-19 period in the training dataset leads to superior performance compared to the baseline strategies. During testing, the on-policy approaches (VI and SARSA) outperform Q-learning, highlighting the influence of bias-variance tradeoff and the generalization capabilities of simpler policies. However, it is noted that the performance of Q-learning may vary depending on the stability of future market conditions. Future work is suggested, including experiments with updated Q-learning policies during testing and trading diverse individual stocks. Additionally, the exploration of alternative economic indicators for training the models is proposed.
翻訳日:2024-01-23 20:49:56 公開日:2024-01-21
# MathVista:ビジュアルコンテキストにおける基礎モデルの数学的推論の評価

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts ( http://arxiv.org/abs/2310.02255v3 )

ライセンス: Link先を確認
Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao(参考訳) 大規模言語モデル(LLM)とLMM(Large Multimodal Models)は多くのタスクや領域において優れた問題解決能力を示すが、視覚的文脈における数学的推論の能力は体系的に研究されていない。 このギャップを埋めるために,さまざまな数学的タスクと視覚的タスクの課題を組み合わせるためのベンチマークであるmathvistaを提案する。 数学を含む28の既存のマルチモーダルデータセットと新たに作成された3つのデータセット(IQTest、FunctionQA、PaperQA)から派生した6,141の例で構成されている。 これらのタスクを補完するには、きめ細かい、深い視覚的理解と構成的推論が必要です。 MathVistaでは,12の著名な基礎モデルの包括的,定量的評価を行った。 gpt-4vモデル全体の精度は49.9%で、第2位であるbardを15.1%上回っている。 分析の結果,gpt-4vの優位は,視覚知覚の強化と数学的推論が主因であることが判明した。 しかし、gpt-4vは複雑な数値の理解や厳密な推論に苦しむことが多いため、まだ人間のパフォーマンスには10.4%不足している。 この大きなギャップは、MathVistaが数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において果たす重要な役割を浮き彫りにする。 さらに, 自己検証の新たな能力, 自己整合性の適用, GPT-4Vの対話型チャットボット機能について検討し, 今後の研究の可能性を明らかにする。 プロジェクトはhttps://mathvista.github.io/で入手できる。

Large Language Models (LLMs) and Large Multimodal Models (LMMs) exhibit impressive problem-solving skills in many tasks and domains, but their ability in mathematical reasoning in visual contexts has not been systematically studied. To bridge this gap, we present MathVista, a benchmark designed to combine challenges from diverse mathematical and visual tasks. It consists of 6,141 examples, derived from 28 existing multimodal datasets involving mathematics and 3 newly created datasets (i.e., IQTest, FunctionQA, and PaperQA). Completing these tasks requires fine-grained, deep visual understanding and compositional reasoning, which all state-of-the-art foundation models find challenging. With MathVista, we have conducted a comprehensive, quantitative evaluation of 12 prominent foundation models. The best-performing GPT-4V model achieves an overall accuracy of 49.9%, substantially outperforming Bard, the second-best performer, by 15.1%. Our in-depth analysis reveals that the superiority of GPT-4V is mainly attributed to its enhanced visual perception and mathematical reasoning. However, GPT-4V still falls short of human performance by 10.4%, as it often struggles to understand complex figures and perform rigorous reasoning. This significant gap underscores the critical role that MathVista will play in the development of general-purpose AI agents capable of tackling mathematically intensive and visually rich real-world tasks. We further explore the new ability of self-verification, the application of self-consistency, and the interactive chatbot capabilities of GPT-4V, highlighting its promising potential for future research. The project is available at https://mathvista.github.io/.
翻訳日:2024-01-23 20:42:19 公開日:2024-01-21
# GenSim:大規模言語モデルによるロボットシミュレーションタスクの生成

GenSim: Generating Robotic Simulation Tasks via Large Language Models ( http://arxiv.org/abs/2310.01361v2 )

ライセンス: Link先を確認
Lirui Wang, Yiyang Ling, Zhecheng Yuan, Mohit Shridhar, Chen Bao, Yuzhe Qin, Bailin Wang, Huazhe Xu, Xiaolong Wang(参考訳) 一般的なロボットポリシーを訓練するために大量の現実世界のインタラクションデータを収集することは、しばしば違法に高価であり、シミュレーションデータの使用を動機付けている。 しかし、既存のデータ生成手法は、新しいタスクを考え検証するのに必要な人的労力のため、一般的にタスクレベルの多様性ではなく、シーンレベルの多様性(例えば、オブジェクトインスタンスとポーズ)に焦点を当ててきた。 これにより、シミュレーションデータに基づいて訓練されたポリシーが重要なタスクレベルの一般化を示すことが困難になった。 本稿では,大規模言語モデル(llm)のグラウンドとコーディング能力を活用し,リッチなシミュレーション環境とエキスパートデモンストレーションを自動的に生成する手法を提案する。 GenSimと呼ばれる我々の手法には、目標タスクをLLMに付与するゴール指向生成と、目標タスクを解くためのタスクカリキュラムの提案と、以前のタスクからLLMブートストラップを抽出し、より複雑なタスクを解くのに役立つ新しいタスクを反復的に提案する探索生成という2つのモードがある。 我々は、GPT4を用いて既存のベンチマークを10回以上100タスクに拡張し、ロボットシミュレーションタスクのコード生成において、微調整GPTやCode Llamaを含む複数のLCMを教師付き微調整し、評価する。 さらに、マルチタスクポリシートレーニングに使用する場合、LCMの生成したシミュレーションプログラムはタスクレベルの一般化を大幅に向上させることができる。 さらに,最小のsim-to-real適応により,gpt4生成シミュレーションタスクに事前学習したマルチタスクポリシは,実世界で認識できない長時間ホリゾンタスクへの転送が強くなり,ベースラインを25%上回ることがわかった。 コード、デモ、ビデオのプロジェクトwebサイト(https://liruiw.github.io/gensim)を参照。

Collecting large amounts of real-world interaction data to train general robotic policies is often prohibitively expensive, thus motivating the use of simulation data. However, existing methods for data generation have generally focused on scene-level diversity (e.g., object instances and poses) rather than task-level diversity, due to the human effort required to come up with and verify novel tasks. This has made it challenging for policies trained on simulation data to demonstrate significant task-level generalization. In this paper, we propose to automatically generate rich simulation environments and expert demonstrations by exploiting a large language models' (LLM) grounding and coding ability. Our approach, dubbed GenSim, has two modes: goal-directed generation, wherein a target task is given to the LLM and the LLM proposes a task curriculum to solve the target task, and exploratory generation, wherein the LLM bootstraps from previous tasks and iteratively proposes novel tasks that would be helpful in solving more complex tasks. We use GPT4 to expand the existing benchmark by ten times to over 100 tasks, on which we conduct supervised finetuning and evaluate several LLMs including finetuned GPTs and Code Llama on code generation for robotic simulation tasks. Furthermore, we observe that LLMs-generated simulation programs can enhance task-level generalization significantly when used for multitask policy training. We further find that with minimal sim-to-real adaptation, the multitask policies pretrained on GPT4-generated simulation tasks exhibit stronger transfer to unseen long-horizon tasks in the real world and outperform baselines by 25%. See the project website (https://liruiw.github.io/gensim) for code, demos, and videos.
翻訳日:2024-01-23 20:40:39 公開日:2024-01-21
# 深度補完のためのゲート型クロスアテンションネットワーク

Gated Cross-Attention Network for Depth Completion ( http://arxiv.org/abs/2309.16301v2 )

ライセンス: Link先を確認
Xiaogang Jia, Songlei Jian, Yusong Tan, Yonggang Che, Wei Chen and Zhengfa Liang(参考訳) 深さ完成は深さ推定の分野における一般的な研究方向である。 色と深度の特徴の融合は、主にカラー画像の豊かなシーン詳細と深度マップのスパースピクセルとの非対称性のために、この課題における現在の重要な課題である。 この問題に対処するために,ゲーティング機構を介して信頼度を伝播し,色と深度の両方のキー情報を同時に抽出・精錬し,局所的な空間的特徴融合を実現する効率的なGated Cross-Attention Networkを設計する。 さらに,低次元空間における変圧器に基づくアテンションネットワークを用いて,グローバル特徴を効果的に融合し,ネットワークの受容場を増大させる。 提案手法は, 単純かつ効率的なゲーティング機構により, 分岐や後処理を必要とせず, 高速かつ高精度な深度補完を実現する。 同時に、asynchyperbandschedulerスケジューラとhyperoptsearchアルゴリズムを備えたray tuneメカニズムを使用して、モジュールイテレーションの最適な数を自動的に検索します。 屋内および屋外の両方のシーンデータセットで実験を行う。 我々の高速ネットワークは,時間と精度でパレート最適解を達成し,提出時点では,KITTI公式ウェブサイト上のすべての論文の中で,正確なネットワークが第1位である。

Depth completion is a popular research direction in the field of depth estimation. The fusion of color and depth features is the current critical challenge in this task, mainly due to the asymmetry between the rich scene details in color images and the sparse pixels in depth maps. To tackle this issue, we design an efficient Gated Cross-Attention Network that propagates confidence via a gating mechanism, simultaneously extracting and refining key information in both color and depth branches to achieve local spatial feature fusion. Additionally, we employ an attention network based on the Transformer in low-dimensional space to effectively fuse global features and increase the network's receptive field. With a simple yet efficient gating mechanism, our proposed method achieves fast and accurate depth completion without the need for additional branches or post-processing steps. At the same time, we use the Ray Tune mechanism with the AsyncHyperBandScheduler scheduler and the HyperOptSearch algorithm to automatically search for the optimal number of module iterations, which also allows us to achieve performance comparable to state-of-the-art methods. We conduct experiments on both indoor and outdoor scene datasets. Our fast network achieves Pareto-optimal solutions in terms of time and accuracy, and at the time of submission, our accurate network ranks first among all published papers on the KITTI official website in terms of accuracy.
翻訳日:2024-01-23 20:38:25 公開日:2024-01-21
# IBMDPにおける決定木ポリシー学習のためのアクタクリティカルアルゴリズムの限界

Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in IBMDPs ( http://arxiv.org/abs/2309.13365v3 )

ライセンス: Link先を確認
Hector Kohler, Riad Akrour, Philippe Preux(参考訳) AIモデルの解釈可能性により、ユーザーの安全チェックがそのようなAIの信頼を構築することができる。 特に、意思決定木(dts)は、学習したモデルをグローバルに観察し、どの入力の特徴が決定に不可欠か透過的に明らかにします。 しかし、DTが大きすぎると解釈が妨げられる。 小型木を学習するために,近年の強化学習(Reinforcement Learning, RL)フレームワークが提案され, 深いRLを用いてDTの空間を探索する。 このフレームワークは、決定問題(例えば教師付き分類タスク)を、隠された入力の特徴に関する情報を収集する追加のアクションで強化する。 これらの行動を適切にペナルティ化することにより、エージェントはdtsのトレードオフサイズと性能を最適に学習する。 実際には、部分的に観測可能なマルコフ決定プロセス(MDP)のための反応性ポリシーを学ぶ必要があるが、これはまだ未解決の問題である。 本稿では,本クラスにおける単純な玩具作業においても,深部RLは失敗する可能性があることを示す。 しかし, 基本決定問題が教師付き分類課題である場合, 最適木を求めることは, 完全に観察可能なマルコフ決定問題としてキャスティングでき, 効率的に解くことができることを示す。

Interpretability of AI models allows for user safety checks to build trust in such AIs. In particular, Decision Trees (DTs) provide a global look at the learned model and transparently reveal which features of the input are critical for making a decision. However, interpretability is hindered if the DT is too large. To learn compact trees, a recent Reinforcement Learning (RL) framework has been proposed to explore the space of DTs using deep RL. This framework augments a decision problem (e.g. a supervised classification task) with additional actions that gather information about the features of an otherwise hidden input. By appropriately penalizing these actions, the agent learns to optimally trade-off size and performance of DTs. In practice, a reactive policy for a partially observable Markov decision process (MDP) needs to be learned, which is still an open problem. We show in this paper that deep RL can fail even on simple toy tasks of this class. However, when the underlying decision problem is a supervised classification task, we show that finding the optimal tree can be cast as a fully observable Markov decision problem and be solved efficiently, giving rise to a new family of algorithms for learning DTs that go beyond the classical greedy maximization ones.
翻訳日:2024-01-23 20:37:25 公開日:2024-01-21
# 時系列予測のための階層型アンサンブル型特徴選択

Hierarchical Ensemble-Based Feature Selection for Time Series Forecasting ( http://arxiv.org/abs/2310.17544v2 )

ライセンス: Link先を確認
Aysin Tumay, Mustafa E. Aydin, Ali T. Koc, and Suleyman S. Kozat(参考訳) 本稿では,非定常性のための階層的積み重ねや,多数の特徴を有する限られたサンプル数に基づく特徴選択のための新しいアンサンブル手法を提案する。 このアプローチでは,階層構造を用いた機能間の相互依存を利用する。 当初、機械学習モデルは機能のサブセットを使用してトレーニングされ、その後、モデルの出力は他のアルゴリズムを使って階層的に更新され、残りの機能は最小限に抑えられる。 この階層構造は柔軟な深さと特徴選択を可能にする。 機能共依存を階層的に活用することにより,提案手法は従来の特徴選択手法と特徴重要点の限界を克服する。 このアプローチの有効性は、合成およびよく知られた実生活データセット上で実証され、従来の方法や最先端のアプローチと比較して、スケーラブルで安定したパフォーマンス改善を提供する。 結果のさらなる研究と複製を容易にするために、私たちのアプローチのソースコードも提供します。

We introduce a novel ensemble approach for feature selection based on hierarchical stacking for non-stationarity and/or a limited number of samples with a large number of features. Our approach exploits the co-dependency between features using a hierarchical structure. Initially, a machine learning model is trained using a subset of features, and then the output of the model is updated using other algorithms in a hierarchical manner with the remaining features to minimize the target loss. This hierarchical structure allows for flexible depth and feature selection. By exploiting feature co-dependency hierarchically, our proposed approach overcomes the limitations of traditional feature selection methods and feature importance scores. The effectiveness of the approach is demonstrated on synthetic and well-known real-life datasets, providing significant scalable and stable performance improvements compared to the traditional methods and the state-of-the-art approaches. We also provide the source code of our approach to facilitate further research and replicability of our results.
翻訳日:2024-01-23 20:30:40 公開日:2024-01-21
# Rosetta Stone - KSAA-RD Shared Task: 言語モデリングから単語定義へ

Rosetta Stone at KSAA-RD Shared Task: A Hop From Language Modeling To Word--Definition Alignment ( http://arxiv.org/abs/2310.15823v3 )

ライセンス: Link先を確認
Ahmed ElBakry, Mohamed Gabr, Muhammad ElNokrashy, Badr AlKhamissi(参考訳) 逆辞書は、ユーザーが提供された定義、意味、記述に基づいて単語を発見できるツールである。 このような手法は様々なシナリオで有用であり、同一性のない単語の記述を持つ言語学習者を支援し、正確な用語を求める作家に利益をもたらす。 これらのシナリオは、しばしば"Tip-of-the-Tongue"(TOT)現象と呼ばれる現象をカプセル化する。 本稿では,アラビア語逆辞書共有タスクの勝利解を提案する。 この課題は、アラビア語のベクトル表現を付随する記述から導出することに焦点を当てている。 共有タスクは2つの異なるサブタスクを含む: 1つはアラビア語の定義を入力として含み、もう1つは英語の定義を用いる。 最初のサブタスクに対して、我々のアプローチは、与えられた定義に埋め込まれた単語を予測し、微調整されたアラビアBERTベースのモデルの集合に依存する。 最終的な表現は、アンサンブル内の各モデルからの出力埋め込み平均化によって得られる。 対照的に、第2サブタスクの最も効果的な解決策は、英語のテスト定義をアラビア語に翻訳し、最初は第1サブタスクのために訓練された微調整モデルに適用することである。 この簡単な方法は両方のサブタスクで最高点を達成する。

A Reverse Dictionary is a tool enabling users to discover a word based on its provided definition, meaning, or description. Such a technique proves valuable in various scenarios, aiding language learners who possess a description of a word without its identity, and benefiting writers seeking precise terminology. These scenarios often encapsulate what is referred to as the "Tip-of-the-Tongue" (TOT) phenomena. In this work, we present our winning solution for the Arabic Reverse Dictionary shared task. This task focuses on deriving a vector representation of an Arabic word from its accompanying description. The shared task encompasses two distinct subtasks: the first involves an Arabic definition as input, while the second employs an English definition. For the first subtask, our approach relies on an ensemble of finetuned Arabic BERT-based models, predicting the word embedding for a given definition. The final representation is obtained through averaging the output embeddings from each model within the ensemble. In contrast, the most effective solution for the second subtask involves translating the English test definitions into Arabic and applying them to the finetuned models originally trained for the first subtask. This straightforward method achieves the highest score across both subtasks.
翻訳日:2024-01-23 20:29:16 公開日:2024-01-21
# GitBug-Actions:GitHubアクションで再現可能なバグフィックスベンチマークを構築する

GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub Actions ( http://arxiv.org/abs/2310.15642v3 )

ライセンス: Link先を確認
Nuno Saavedra, Andr\'e Silva, Martin Monperrus(参考訳) バグフィックスベンチマークは、自動プログラム修復(APR)やフォールトローカライゼーション(FL)など、ソフトウェア工学の様々なサブフィールドを進化させる上で基本的なものである。 優れたベンチマークには、今日の技術と開発プラクティスを正確に反映する最近の例を含める必要があります。 長期的に実行可能なベンチマークは、例えば、もはや利用できない依存関係のために、残業時間を劣化しないテストスイートを特徴としなければならない。 既存のベンチマークは両方の基準を満たさない。 例えば、最上位のjavaベンチマークである defects4j が、2020年にアップデートされた。 さらに、既存のベンチマークの大半では、完全な再現性は無視されている。 本稿では,gitbug-actionsについて述べる。最新かつ完全に再現可能なバグフィックスを用いて,バグフィックスベンチマークを構築するための新しいツールである。 GitBug-Actionsは、最も人気のあるCIプラットフォームであるGitHub Actionsに依存して、バグフィックスを検出し、制御された再現可能な環境でCIパイプラインをスマートにローカルに実行する。 私たちの知る限りでは、GitHub Actionsを使ってバグフィックスを収集するのは初めてです。 ツールチェーンを示すために、gitbug-actionsをデプロイして、さまざまなリポジトリから実行可能な、完全に再現可能なバグ修正を含む、概念実証のgoバグフィックスベンチマークを構築します。 GitBug-Actionsをデモするビデオは、https://youtu.be/aBWwa1sJYBsで公開されている。

Bug-fix benchmarks are fundamental in advancing various sub-fields of software engineering such as automatic program repair (APR) and fault localization (FL). A good benchmark must include recent examples that accurately reflect technologies and development practices of today. To be executable in the long term, a benchmark must feature test suites that do not degrade overtime due to, for example, dependencies that are no longer available. Existing benchmarks fail in meeting both criteria. For instance, Defects4J, one of the foremost Java benchmarks, last received an update in 2020. Moreover, full-reproducibility has been neglected by the majority of existing benchmarks. In this paper, we present GitBug-Actions: a novel tool for building bug-fix benchmarks with modern and fully-reproducible bug-fixes. GitBug-Actions relies on the most popular CI platform, GitHub Actions, to detect bug-fixes and smartly locally execute the CI pipeline in a controlled and reproducible environment. To the best of our knowledge, we are the first to rely on GitHub Actions to collect bug-fixes. To demonstrate our toolchain, we deploy GitBug-Actions to build a proof-of-concept Go bug-fix benchmark containing executable, fully-reproducible bug-fixes from different repositories. A video demonstrating GitBug-Actions is available at: https://youtu.be/aBWwa1sJYBs.
翻訳日:2024-01-23 20:28:41 公開日:2024-01-21
# 格子ゲージ理論の量子シミュレーションのための準最適状態準備

Nearly-optimal state preparation for quantum simulations of lattice gauge theories ( http://arxiv.org/abs/2310.13757v2 )

ライセンス: Link先を確認
Christopher F. Kane and Niladri Gomes and Michael Kreshchuk(参考訳) 単項行列に対する量子固有値変換(QETU)に基づく最近開発された基底状態生成アルゴリズムにいくつかの改良を加え,このアルゴリズムを2+1DのU(1)ゲージ理論の格子定式化に適用するとともに,ガウス分布の高効率化であるQETUの新たな応用を提案する。 QETU法は、初期の耐故障性デバイス上でのほぼ最適基底状態準備と基底状態エネルギー推定のためのアルゴリズムとして提案されている。 これは時間進化入力モデルを用いており、ハミルトン入力モデルに基づく同様のアルゴリズムで生じる漸近ゲートコストの全体的プレファクターを克服することができる。 本稿では,qetuアルゴリズムの修正を行い,時間発展回路の完全かつロータライズされた実装の場合のコストを大幅に削減する。 QETUを用いて、2次元のU(1)格子ゲージ理論の基底状態を作成し、所望の精度とシステムパラメータへの計算資源の依存を調査し、一般格子ゲージ理論への適用性について議論する。 また,QETU技術を用いてガウス分布とウェーブパケットの合成を行い,既存のアルゴリズムを$n_q \gtrsim 2-5$ qubitsで上回る性能を示す。

We present several improvements to the recently developed ground state preparation algorithm based on the Quantum Eigenvalue Transformation for Unitary Matrices (QETU), apply this algorithm to a lattice formulation of U(1) gauge theory in 2+1D, as well as propose a novel application of QETU, a highly efficient preparation of Gaussian distributions. The QETU technique has been originally proposed as an algorithm for nearly-optimal ground state preparation and ground state energy estimation on early fault-tolerant devices. It uses the time-evolution input model, which can potentially overcome the large overall prefactor in the asymptotic gate cost arising in similar algorithms based on the Hamiltonian input model. We present modifications to the original QETU algorithm that significantly reduce the cost for the cases of both exact and Trotterized implementation of the time evolution circuit. We use QETU to prepare the ground state of a U(1) lattice gauge theory in 2 spatial dimensions, explore the dependence of computational resources on the desired precision and system parameters, and discuss the applicability of our results to general lattice gauge theories. We also demonstrate how the QETU technique can be utilized for preparing Gaussian distributions and wave packets in a way which outperforms existing algorithms for as little as $n_q \gtrsim 2-5$ qubits.
翻訳日:2024-01-23 20:28:18 公開日:2024-01-21
# 残差学習による白色物質拡散度からの年齢予測

Predicting Age from White Matter Diffusivity with Residual Learning ( http://arxiv.org/abs/2311.03500v2 )

ライセンス: Link先を確認
Chenyu Gao, Michael E. Kim, Ho Hin Lee, Qi Yang, Nazirah Mohd Khairi, Praitayini Kanakaraj, Nancy R. Newlin, Derek B. Archer, Angela L. Jefferson, Warren D. Taylor, Brian D. Boyd, Lori L. Beason-Held, Susan M. Resnick, The BIOCARD Study Team, Yuankai Huo, Katherine D. Van Schaik, Kurt G. Schilling, Daniel Moyer, Ivana I\v{s}gum, Bennett A. Landman(参考訳) 特定の年代帯で予想されるものと矛盾する画像所見は、神経疾患の早期の指標となり、死亡リスクが増大する可能性がある。 このようなずれに敏感なバイオマーカーを開発する上では, 構造MRIデータからの時系列年齢推定や, 期待値からの偏差が重要な課題となっている。 構造解析を補完する拡散テンソルイメージング(DTI)は、脳白質内の加齢に伴う微細構造変化を同定するのに有効であることが証明されており、脳の年齢予測に有望な追加のモダリティとして提示されている。 初期の研究では、DTIの年齢推定の利点を生かそうとしているが、この予測の成功は、DTIのデータで利用できるマクロ構造的特徴よりも、DTIが提供するユニークなミクロ構造的特徴と微分的特徴に起因しているという証拠はない。 そこで本研究では, 通常の白色物質の加齢変化を捉えるために, ホワイトマター比年齢推定法を開発した。 具体的には,dtiスカラー画像から年齢を予測する際のマクロ構造情報を2つの異なる手法で意図的に無視する。 最初の方法は、興味のある領域からのみ微細な特徴を抽出することに依存する。 2つ目は、画像から直接特徴を学習するために3D残差ニューラルネットワーク(ResNets)を適用している。 未確認データを用いて試験すると、第1の方法は、認知正常な被験者に対して6.11年の平均絶対誤差(MAE)を、第2の方法は認知正常な参加者に対して6.62年の平均絶対誤差(MAE)を、第2の方法は認知正常な参加者に対して4.69年の平均絶対誤差(MAE)を、第4の方法は認知正常な参加者に対して4.96年を達成する。 ResNetモデルは脳年齢予測のための微妙で非マクロな特徴を捉える。

Imaging findings inconsistent with those expected at specific chronological age ranges may serve as early indicators of neurological disorders and increased mortality risk. Estimation of chronological age, and deviations from expected results, from structural MRI data has become an important task for developing biomarkers that are sensitive to such deviations. Complementary to structural analysis, diffusion tensor imaging (DTI) has proven effective in identifying age-related microstructural changes within the brain white matter, thereby presenting itself as a promising additional modality for brain age prediction. Although early studies have sought to harness DTI's advantages for age estimation, there is no evidence that the success of this prediction is owed to the unique microstructural and diffusivity features that DTI provides, rather than the macrostructural features that are also available in DTI data. Therefore, we seek to develop white-matter-specific age estimation to capture deviations from normal white matter aging. Specifically, we deliberately disregard the macrostructural information when predicting age from DTI scalar images, using two distinct methods. The first method relies on extracting only microstructural features from regions of interest. The second applies 3D residual neural networks (ResNets) to learn features directly from the images, which are non-linearly registered and warped to a template to minimize macrostructural variations. When tested on unseen data, the first method yields mean absolute error (MAE) of 6.11 years for cognitively normal participants and MAE of 6.62 years for cognitively impaired participants, while the second method achieves MAE of 4.69 years for cognitively normal participants and MAE of 4.96 years for cognitively impaired participants. We find that the ResNet model captures subtler, non-macrostructural features for brain age prediction.
翻訳日:2024-01-23 20:17:05 公開日:2024-01-21
# 医用画像解析におけるGPT-4Vのマルチモーダル機能の評価

A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis ( http://arxiv.org/abs/2310.20381v4 )

ライセンス: Link先を確認
Yingshu Li, Yunyi Liu, Zhanyu Wang, Xinyu Liang, Lei Wang, Lingqiao Liu, Leyang Cui, Zhaopeng Tu, Longyue Wang, Luping Zhou(参考訳) 本研究は, 医用画像解析におけるGPT-4Vのマルチモーダル機能の評価を行い, 放射線診断レポート生成, 医用ビジュアル質問応答, 医用ビジュアルグラウンドティングの3つの課題に着目した。 評価のために、各タスク毎に一連のプロンプトを設計し、GPT-4Vの対応する能力を誘導して十分な優れた出力を生成する。 定量的分析, 人的評価, ケーススタディの3つの評価方法を用いて, 詳細な評価を行う。 評価の結果,GPT-4Vは医用画像の理解に優れ,高品質な放射線診断レポートを作成でき,医用画像に関する質問に効果的に答えることができることがわかった。 一方,医療用視覚接地の性能は大幅に向上する必要があることが判明した。 また,定量的分析による評価結果と人的評価による評価結果との相違を観察した。 この相違は、gpt-4vのような大規模言語モデルの性能評価における従来のメトリクスの限界と、自動定量分析のための新しいメトリクスの開発の必要性を示唆している。

This work conducts an evaluation of GPT-4V's multimodal capability for medical image analysis, with a focus on three representative tasks of radiology report generation, medical visual question answering, and medical visual grounding. For the evaluation, a set of prompts is designed for each task to induce the corresponding capability of GPT-4V to produce sufficiently good outputs. Three evaluation ways including quantitative analysis, human evaluation, and case study are employed to achieve an in-depth and extensive evaluation. Our evaluation shows that GPT-4V excels in understanding medical images and is able to generate high-quality radiology reports and effectively answer questions about medical images. Meanwhile, it is found that its performance for medical visual grounding needs to be substantially improved. In addition, we observe the discrepancy between the evaluation outcome from quantitative analysis and that from human evaluation. This discrepancy suggests the limitations of conventional metrics in assessing the performance of large language models like GPT-4V and the necessity of developing new metrics for automatic quantitative analysis.
翻訳日:2024-01-23 20:14:28 公開日:2024-01-21
# 付加・乗算雑音を考慮した線形SDEの発電機同定

Generator Identification for Linear SDEs with Additive and Multiplicative Noise ( http://arxiv.org/abs/2310.19491v2 )

ライセンス: Link先を確認
Yuanyuan Wang, Xi Geng, Wei Huang, Biwei Huang, Mingming Gong(参考訳) 本稿では,与えられた固定初期状態を持つ解過程の分布から線形確率微分方程式(sde)の生成元を同定するための条件を提案する。 これらの識別可能性条件は、観測分布からの干渉後分布の同定を可能にするため、線形sdesを用いた因果推論において不可欠である。 具体的には,線形SDEの生成元を付加雑音で同定するための十分かつ必要な条件と,乗法雑音で線形SDEの生成元を特定するための十分な条件を導出する。 両タイプのSDEから導出される条件は汎用的であることを示す。 さらに, 導出同定可能性条件の幾何学的解釈を行い, その理解を深める。 理論的結果を検証するため,確立した知見を裏付け,裏付ける一連のシミュレーションを行った。

In this paper, we present conditions for identifying the generator of a linear stochastic differential equation (SDE) from the distribution of its solution process with a given fixed initial state. These identifiability conditions are crucial in causal inference using linear SDEs as they enable the identification of the post-intervention distributions from its observational distribution. Specifically, we derive a sufficient and necessary condition for identifying the generator of linear SDEs with additive noise, as well as a sufficient condition for identifying the generator of linear SDEs with multiplicative noise. We show that the conditions derived for both types of SDEs are generic. Moreover, we offer geometric interpretations of the derived identifiability conditions to enhance their understanding. To validate our theoretical results, we perform a series of simulations, which support and substantiate the established findings.
翻訳日:2024-01-23 20:14:07 公開日:2024-01-21
# gaussianhead: 学習可能なgaussian導出を持つ高忠実な頭部アバター

GaussianHead: High-fidelity Head Avatars with Learnable Gaussian Derivation ( http://arxiv.org/abs/2312.01632v3 )

ライセンス: Link先を確認
Jie Wang, Jiu-Cheng Xie, Xianyan Li, Feng Xu, Chi-Man Pun, Hao Gao(参考訳) 被験者のための鮮やかな3Dヘッドアバターの構築とアニメーションのシリーズの実現は、非常に難しい。 本稿では,人間の頭部を異方性3次元gaussianとモデル化するgaussianheadを提案する。 本フレームワークでは, 頭部の動的形状と複雑なテクスチャに対処するため, 運動変形場と多分解能三面体をそれぞれ構築する。 特に、各ガウスに排他的導出スキームを課し、位置変換のための学習可能なパラメータの集合を通して複数のドッペルガンガーを生成する。 この設計により、頭部の特定の構成要素に洗練された構造を適合するものであっても、ガウスの外観情報をコンパクトかつ正確にエンコードすることができる。 また、新たに加えたガウス人の継承派生戦略が採用され、訓練の加速が促進される。 広汎な実験により,本手法は高忠実なレンダリング,再現における最先端のアプローチ,クロスアイデンティティの再現,新しいビュー合成タスクを実現できることが示された。 私たちのコードは、https://github.com/chiehwangs/gaussian-head.comで利用可能です。

Constructing vivid 3D head avatars for given subjects and realizing a series of animations on them is valuable yet challenging. This paper presents GaussianHead, which models the actional human head with anisotropic 3D Gaussians. In our framework, a motion deformation field and multi-resolution tri-plane are constructed respectively to deal with the head's dynamic geometry and complex texture. Notably, we impose an exclusive derivation scheme on each Gaussian, which generates its multiple doppelgangers through a set of learnable parameters for position transformation. With this design, we can compactly and accurately encode the appearance information of Gaussians, even those fitting the head's particular components with sophisticated structures. In addition, an inherited derivation strategy for newly added Gaussians is adopted to facilitate training acceleration. Extensive experiments show that our method can produce high-fidelity renderings, outperforming state-of-the-art approaches in reconstruction, cross-identity reenactment, and novel view synthesis tasks. Our code is available at: https://github.com/chiehwangs/gaussian-head.
翻訳日:2024-01-23 20:07:44 公開日:2024-01-21
# MVBench: 総合的なマルチモーダルビデオ理解ベンチマーク

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark ( http://arxiv.org/abs/2311.17005v3 )

ライセンス: Link先を確認
Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao(参考訳) マルチモーダル大規模言語モデル(mllms)の急速な発展に伴い、これらのモデルの理解能力を評価するための多くの診断ベンチマークが最近登場している。 しかし、ほとんどのベンチマークは静的画像タスクの空間的理解を主に評価し、動的ビデオタスクの時間的理解を無視している。 この問題を軽減するために,一フレームで効果的に解決できない20の課題のビデオタスクをカバーする,総合的なマルチモーダルビデオ理解ベンチマークであるMVBenchを導入する。 具体的には、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。 様々な静的タスクを動的タスクに変換することにより、知覚から認知まで幅広い時間的スキルを必要とする映像タスクを体系的に生成することができる。 そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。 一方、このような異なるパラダイムは、手作業による介入を伴わずに、MVBenchを効率的に構築することができます。 一方,LLMのバイアススコアリングを回避し,ビデオアノテーションによる評価の公平性を保証する。 さらに,多様な命令調整データを用いたプログレッシブマルチモーダルトレーニングにより,より堅牢なビデオMLLMベースラインであるVideoChat2を開発する。 MVBenchの広範な結果から,既存のMLLMは時間的理解では満足できないが,VoiceChat2はMVBenchでは15%以上上回っていることがわかった。 すべてのモデルとデータはhttps://github.com/OpenGVLab/Ask-Anything.comで入手できる。

With the rapid development of Multi-modal Large Language Models (MLLMs), a number of diagnostic benchmarks have recently emerged to evaluate the comprehension capabilities of these models. However, most benchmarks predominantly assess spatial understanding in the static image tasks, while overlooking temporal understanding in the dynamic video tasks. To alleviate this issue, we introduce a comprehensive Multi-modal Video understanding Benchmark, namely MVBench, which covers 20 challenging video tasks that cannot be effectively solved with a single frame. Specifically, we first introduce a novel static-to-dynamic method to define these temporal-related tasks. By transforming various static tasks into dynamic ones, we enable the systematic generation of video tasks that require a broad spectrum of temporal skills, ranging from perception to cognition. Then, guided by the task definition, we automatically convert public video annotations into multiple-choice QA to evaluate each task. On one hand, such a distinct paradigm allows us to build MVBench efficiently, without much manual intervention. On the other hand, it guarantees evaluation fairness with ground-truth video annotations, avoiding the biased scoring of LLMs. Moreover, we further develop a robust video MLLM baseline, i.e., VideoChat2, by progressive multi-modal training with diverse instruction-tuning data. The extensive results on our MVBench reveal that, the existing MLLMs are far from satisfactory in temporal understanding, while our VideoChat2 largely surpasses these leading models by over 15% on MVBench. All models and data are available at https://github.com/OpenGVLab/Ask-Anything.
翻訳日:2024-01-23 20:06:21 公開日:2024-01-21
# Topic-VQ-VAE:フレキシブルなトピックガイドドドキュメント生成のための遅延コードブックの活用

Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation ( http://arxiv.org/abs/2312.11532v2 )

ライセンス: Link先を確認
YoungJoon Yoo, Jongwon Choi(参考訳) 本稿では,ベクトル量子化変分オートエンコーダ~(vq-vae)からの潜在コードブックを用いて,事前学習された言語モデルなどの組込みのリッチな情報を離散的にカプセル化する新しい手法を提案する。 潜在コードブックの斬新な解釈と概念的バガオブワードとしての埋め込みから,各潜在コードブックに関連する原文書を逆生成するトピック-vq-vae~(tvq-vae)と呼ばれる新しい生成トピックモデルを提案する。 TVQ-VAEは、従来のBoW分布や自己回帰画像生成など、様々な生成分布でトピックを可視化することができる。 文書解析と画像生成に関する実験結果から,TVQ-VAEはデータセットの基盤構造を明らかにするトピックコンテキストを効果的に捉え,柔軟な文書生成形式をサポートすることを示す。 提案されたTVQ-VAEの公式実装はhttps://github.com/clovaai/TVQ-VAEで公開されている。

This paper introduces a novel approach for topic modeling utilizing latent codebooks from Vector-Quantized Variational Auto-Encoder~(VQ-VAE), discretely encapsulating the rich information of the pre-trained embeddings such as the pre-trained language model. From the novel interpretation of the latent codebooks and embeddings as conceptual bag-of-words, we propose a new generative topic model called Topic-VQ-VAE~(TVQ-VAE) which inversely generates the original documents related to the respective latent codebook. The TVQ-VAE can visualize the topics with various generative distributions including the traditional BoW distribution and the autoregressive image generation. Our experimental results on document analysis and image generation demonstrate that TVQ-VAE effectively captures the topic context which reveals the underlying structures of the dataset and supports flexible forms of document generation. Official implementation of the proposed TVQ-VAE is available at https://github.com/clovaai/TVQ-VAE.
翻訳日:2024-01-23 19:55:20 公開日:2024-01-21
# DeRDaVa: マシンラーニングのための削除ロバストデータ評価

DeRDaVa: Deletion-Robust Data Valuation for Machine Learning ( http://arxiv.org/abs/2312.11413v2 )

ライセンス: Link先を確認
Xiao Tian, Rachael Hwee Ling Sim, Jue Fan, Bryan Kian Hsiang Low(参考訳) データバリュエーションは、データソースからのデータの公正なバリュエーションを決定して補正するか、あるいは予測に最も、または最も有用でないトレーニング例を特定することである。 個人データ所有とデータ保護に関する規制への関心が高まる中、モデル所有者はより多くのデータ削除要求を強制する必要がある。 これは、既存の作業で対処されていない問題を引き起こす。 データ評価スコアは、削除と同等か? スコアは高価な再計算が必要か? 答えはノーです。 再計算を避けるために,我々はデータバリュエーションフレームワーク derdava upfront を用いて,予測したデータ削除後のロバストなモデル性能を維持するための各データソースの貢献度を評価する。 derdavaは効率的に近似することができ、より有用で削除されやすいデータに高い値を割り当てる。 DeRDaVaをリスク-DeRDaVaに一般化し、最悪の/ベストケースモデルユーティリティに関心のあるリスク/リバース/サーキングモデルオーナーに対処する。 ソリューションの実用性も実証的に実証しています。

Data valuation is concerned with determining a fair valuation of data from data sources to compensate them or to identify training examples that are the most or least useful for predictions. With the rising interest in personal data ownership and data protection regulations, model owners will likely have to fulfil more data deletion requests. This raises issues that have not been addressed by existing works: Are the data valuation scores still fair with deletions? Must the scores be expensively recomputed? The answer is no. To avoid recomputations, we propose using our data valuation framework DeRDaVa upfront for valuing each data source's contribution to preserving robust model performance after anticipated data deletions. DeRDaVa can be efficiently approximated and will assign higher values to data that are more useful or less likely to be deleted. We further generalize DeRDaVa to Risk-DeRDaVa to cater to risk-averse/seeking model owners who are concerned with the worst/best-cases model utility. We also empirically demonstrate the practicality of our solutions.
翻訳日:2024-01-23 19:55:02 公開日:2024-01-21
# 最適統計透かしに向けて

Towards Optimal Statistical Watermarking ( http://arxiv.org/abs/2312.07930v2 )

ライセンス: Link先を確認
Baihe Huang and Banghua Zhu and Hanlin Zhu and Jason D. Lee and Jiantao Jiao and Michael I. Jordan(参考訳) 統計的ウォーターマーキングを仮説検定問題として定式化し,従来のすべての統計ウォーターマーキング法を仮定した。 我々の定式化の鍵は出力トークンと拒否領域の結合であり、実際には擬似ランダム生成器によって実現され、I型エラーとII型エラーの非自明なトレードオフを可能にする。 一般仮説テスト設定におけるUMP(Uniformly Most Powerful)の透かしとモデル非依存設定におけるミニマックスタイプIIの誤差を特徴付ける。 出力が$n$トークンのシーケンスである一般的なシナリオでは、小さなタイプIとタイプIIのエラーを保証するために必要なi.d.トークンの数にほぼ一致する上限と下位の境界を確立する。 我々のレートは$\Theta(h^{-1} \log (1/h))$で、トークン当たりの平均エントロピーは$h$で、前作の$h^{-2}$から改善のためのポテンシャルを強調する。 さらに,ユーザが生成したテキストに対して一連の摂動を許容するロバストなウォーターマーキング問題を定式化し,線形計画問題を通じてロバストな ump テストの最適タイプ ii 誤差を特徴付ける。 我々の知る限りでは、これは、将来の研究の関心を惹きつけるであろう、近距離最適率の透かし問題に関する最初の体系的な統計処理である。

We study statistical watermarking by formulating it as a hypothesis testing problem, a general framework which subsumes all previous statistical watermarking methods. Key to our formulation is a coupling of the output tokens and the rejection region, realized by pseudo-random generators in practice, that allows non-trivial trade-off between the Type I error and Type II error. We characterize the Uniformly Most Powerful (UMP) watermark in the general hypothesis testing setting and the minimax Type II error in the model-agnostic setting. In the common scenario where the output is a sequence of $n$ tokens, we establish nearly matching upper and lower bounds on the number of i.i.d. tokens required to guarantee small Type I and Type II errors. Our rate of $\Theta(h^{-1} \log (1/h))$ with respect to the average entropy per token $h$ highlights potentials for improvement from the rate of $h^{-2}$ in the previous works. Moreover, we formulate the robust watermarking problem where users are allowed to perform a class of perturbations on the generated texts, and characterize the optimal type II error of robust UMP tests via a linear programming problem. To the best of our knowledge, this is the first systematic statistical treatment on the watermarking problem with near-optimal rates in the i.i.d. setting, which might be of interest for future works.
翻訳日:2024-01-23 19:53:41 公開日:2024-01-21
# コンパクト次元モデルにおけるスカラー場に対する真空電流

Vacuum currents for a scalar field in models with compact dimensions ( http://arxiv.org/abs/2312.05501v2 )

ライセンス: Link先を確認
A. A. Saharian(参考訳) 本稿では、トロイダルコンパクト化空間次元を持つ時空における荷電スカラー場に対する電流密度の真空期待値について検討する。 背景ジオメトリとして、minkowskian (lm)、local de sitter (lds)、local anti-de sitter (lads)時空が考えられる。 コンパクト次元に沿って、場の作用素に準周期性条件を課し、定数ゲージ場の存在を仮定する。 真空電流はコンパクト次元のみに沿った非零成分を持つ。 これらの成分は、磁束量子と等しい周期を持つコンパクト次元で囲まれた磁束の周期関数である。 LdS と LAdS のジオメトリと、曲率半径と比較して、コンパクト次元の長さの小さな値の場合、その次元に沿った真空電流の膨張の先頭項は、LMバルクのそれと一致する。 この限界において、電流密度のモード和に対する支配的な貢献は、曲率半径よりも小さい波長の真空ゆらぎと重力場の影響によるものである。 重力場の影響は、曲率半径よりも大きいコンパクト次元の長さに必須である。 特に、LMバルクにおける電流密度の指数的な抑制の代わりに、LdSとLAdSの時空におけるパワーローの崩壊が起こる。

This paper reviews the investigations on the vacuum expectation value of the current density for a charged scalar field in spacetimes with toroidally compactified spatial dimensions. As background geometries locally Minkowskian (LM), locally de Sitter (LdS) and locally anti-de Sitter (LAdS) spacetimes are considered. Along compact dimensions quasiperiodicity conditions are imposed on the field operator and the presence of a constant gauge field is assumed. The vacuum current has non-zero components only along compact dimensions. Those components are periodic functions of the magnetic flux enclosed by compact dimensions with the period equal to the flux quantum. For LdS and LAdS geometries and for small values of the length of a compact dimension, compared with the curvature radius, the leading term in the expansion of the the vacuum current along that dimension coincides with that for LM bulk. In this limit the dominant contribution to the mode sum for the current density comes from the vacuum fluctuations with wavelength smaller than the curvature radius and the influence of the gravitational field is weak. The effects of the gravitational field are essential for lengths of compact dimensions larger than the curvature radius. In particular, instead of the exponential suppression of the current density in LM bulk one can have power law decay in LdS and LAdS spacetimes.
翻訳日:2024-01-23 19:52:06 公開日:2024-01-21
# カーネルマシンのプレコンディショニングにおけるNystrom近似について

On the Nystrom Approximation for Preconditioning in Kernel Machines ( http://arxiv.org/abs/2312.03311v2 )

ライセンス: Link先を確認
Amirhesam Abedsoltan, Mikhail Belkin, Parthe Pandit, Luis Rademacher(参考訳) カーネル法は機械学習における非線形予測モデルの一般的なクラスである。 カーネルモデルを学習するためのスケーラブルなアルゴリズムは、本質的に反復的である必要があるが、コンバージェンスは条件の悪いため遅くなる可能性がある。 スペクトルプレコンディショニングは、カーネルモデルをトレーニングするための反復アルゴリズムの収束を高速化する重要なツールである。 しかし、スペクトルプリコンディショナーの計算と保存はコストがかかり、大規模な計算とストレージのオーバーヘッドが発生し、大規模なデータセットの問題に対するカーネルメソッドの適用が妨げられる可能性がある。 スペクトルプレコンディショナーのナイストロム近似は、しばしば計算と保存に安価であり、実用的な応用で成功している。 本稿では,このような近似プリコンディショナーの使用のトレードオフを分析する。 具体的には、対数サイズのサンプル(データセットの大きさの関数として)によって、nystromベースの近似プリコンディショナーは、正確なプリコンディショナーと同様に勾配降下を加速できると同時に、計算とストレージのオーバーヘッドも削減できることを示す。

Kernel methods are a popular class of nonlinear predictive models in machine learning. Scalable algorithms for learning kernel models need to be iterative in nature, but convergence can be slow due to poor conditioning. Spectral preconditioning is an important tool to speed-up the convergence of such iterative algorithms for training kernel models. However computing and storing a spectral preconditioner can be expensive which can lead to large computational and storage overheads, precluding the application of kernel methods to problems with large datasets. A Nystrom approximation of the spectral preconditioner is often cheaper to compute and store, and has demonstrated success in practical applications. In this paper we analyze the trade-offs of using such an approximated preconditioner. Specifically, we show that a sample of logarithmic size (as a function of the size of the dataset) enables the Nystrom-based approximated preconditioner to accelerate gradient descent nearly as well as the exact preconditioner, while also reducing the computational and storage overheads.
翻訳日:2024-01-23 19:51:16 公開日:2024-01-21
# 逆行訓練と知識蒸留によるリーフ病の分類

Explainability-Driven Leaf Disease Classification using Adversarial Training and Knowledge Distillation ( http://arxiv.org/abs/2401.00334v2 )

ライセンス: Link先を確認
Sebastian-Vasile Echim, Iulian-Marius T\u{a}iatu, Dumitru-Clementin Cercel, Florin Pop(参考訳) 本研究は,植物葉病の分類に焦点をあて,逆行訓練,モデル説明可能性,モデル圧縮の3つの重要な側面を考察する。 モデルの敵攻撃に対する堅牢性は、敵の訓練によって強化され、脅威が存在する場合でも正確な分類が保証される。 説明可能性技術を活用することで、モデルの意思決定プロセスに対する洞察を得、信頼と透明性を改善します。 さらに,分類性能を維持しつつ計算効率を最適化するためのモデル圧縮手法を検討する。 本実験により,ベンチマークデータセット上でのロバスト性は,正規テストでは3%~20%,敵攻撃テストでは50%~70%の精度で,分類精度の値が決定される。 また, 学生モデルの計算効率は, 計算効率が15~25倍に向上し, より複雑なモデルの知識を抽出できることを実証した。

This work focuses on plant leaf disease classification and explores three crucial aspects: adversarial training, model explainability, and model compression. The models' robustness against adversarial attacks is enhanced through adversarial training, ensuring accurate classification even in the presence of threats. Leveraging explainability techniques, we gain insights into the model's decision-making process, improving trust and transparency. Additionally, we explore model compression techniques to optimize computational efficiency while maintaining classification performance. Through our experiments, we determine that on a benchmark dataset, the robustness can be the price of the classification accuracy with performance reductions of 3%-20% for regular tests and gains of 50%-70% for adversarial attack tests. We also demonstrate that a student model can be 15-25 times more computationally efficient for a slight performance reduction, distilling the knowledge of more complex models.
翻訳日:2024-01-23 19:44:15 公開日:2024-01-21
# 教師なし時系列異常検出のためのテスト時間適応モデル

When Model Meets New Normals: Test-time Adaptation for Unsupervised Time-series Anomaly Detection ( http://arxiv.org/abs/2312.11976v2 )

ライセンス: Link先を確認
Dongmin Kim, Sunghyun Park, Jaegul Choo(参考訳) 時系列異常検出は、観測の順序から正規性を学習して異常な時間ステップを検出する問題に対処する。 しかし、正規性の概念は時間とともに進化し、トレーニングデータとテストデータの間の分布シフトによって正規性分布を変えることができる「新しい正規性問題」へと繋がる。 本稿では,教師なし時系列異常検出研究における新しい正規問題の有効性を明らかにする。 そこで本研究では,傾向推定に基づく簡易かつ効果的なテスト時間適応戦略と,推論中に新しい正規性を学ぶための自己教師ありアプローチを提案する。 実世界のベンチマークに関する大規模な実験は、提案された戦略を異常検知器に組み込むことで、ベースラインよりもモデルの性能が一貫して向上し、分散シフトの堅牢性をもたらすことを示した。

Time-series anomaly detection deals with the problem of detecting anomalous timesteps by learning normality from the sequence of observations. However, the concept of normality evolves over time, leading to a "new normal problem", where the distribution of normality can be changed due to the distribution shifts between training and test data. This paper highlights the prevalence of the new normal problem in unsupervised time-series anomaly detection studies. To tackle this issue, we propose a simple yet effective test-time adaptation strategy based on trend estimation and a self-supervised approach to learning new normalities during inference. Extensive experiments on real-world benchmarks demonstrate that incorporating the proposed strategy into the anomaly detector consistently improves the model's performance compared to the baselines, leading to robustness to the distribution shifts.
翻訳日:2024-01-23 19:39:18 公開日:2024-01-21
# ページ時間前におけるブラックホール内部の絡み合い

Entanglement inside a black hole before the Page time ( http://arxiv.org/abs/2401.04706v2 )

ライセンス: Link先を確認
Yuxuan Liu, Shao-Kai Jian, Yi Ling and Zhuo-Yu Xian(参考訳) 二重ホログラフィックモデルとsachdev-ye-kitaevモデル(syk)モデルの両方の枠組みにおいて,熱浴と相互作用するオープンで強結合した系における絡み合いの進化について検討した。 一般に、システム内の絡み合いは、最初は内部の相互作用によって増加するが、最終的には環境に散逸する。 二重ホログラフィック設定では、バルクの終末ブレーンはホログラフィック問題によってヘルマライズされた永遠のブラックホールを表していると考える。 大きなブラックホールの2分割間の反射エントロピーは、ページ時間前のエンタングルメント・ウェッジ断面積の位相遷移によって台地が生じるランププレート・スランプの挙動を示す。 量子力学では、環境と相互作用する永遠のブラックホールに似た、大域的な熱場二重状態のSYK+バス系の二重コピーを考える。 ダブルコピーされたSYKクラスター内のR'enyiの相互情報は、ランププラトー・スロープ安定化挙動を示す。 これら2つのモデルで観測された絡み合い量の動的挙動は、システムの内部相互作用と浴槽との外部相互作用の競合に起因している。 この研究は、ページ時間前にブラックホール内部の絡み合いのダイナミクスを詳細に示したものです。

We investigate the evolution of entanglement within an open, strongly coupled system interacting with a heat bath as its environment, in the frameworks of both the doubly holographic model and the Sachdev-Ye-Kitaev (SYK) model. Generally, the entanglement within the system initially increases as a result of internal interactions; however, it eventually dissipates into the environment. In the doubly holographic setup, we consider an end-of-the-world brane in the bulk to represent an eternal black hole hermalized by holographic matters. The reflected entropy between the bipartition of a large black hole exhibits a ramp-plateau-slump behavior, where the plateau arises due to the phase transition of the entanglement wedge cross-section before the Page time. In quantum mechanics, we consider a double copy of the SYK-plus-bath system in a global thermofield double state, resembling an eternal black hole interacting with an environment. The R\'enyi mutual information within the double-copied SYK clusters exhibits a ramp-plateau-slope-stabilizing behavior. The dynamic behaviors of the entanglement quantities observed in these two models are attributable to the competition between the internal interaction of the system and the external interaction with the baths. Our study provides a fine-grained picture of the dynamics of entanglement inside black holes before their Page time.
翻訳日:2024-01-23 19:30:13 公開日:2024-01-21
# リモートセンシング画像のための汎用知識強化事前学習

Generic Knowledge Boosted Pre-training For Remote Sensing Images ( http://arxiv.org/abs/2401.04614v2 )

ライセンス: Link先を確認
Ziyue Huang, Mingming Zhang, Yuan Gong, Qingjie Liu, Yunhong Wang(参考訳) 深層学習モデルは、シーン分類、変化検出、ランドカバーセグメンテーション、その他のリモートセンシング画像理解タスクに不可欠である。 既存のリモートセンシングディープラーニングモデルのバックボーンのほとんどは、imagenet pre-training(imp)から得られた事前学習重みによって初期化される。 しかし、リモートセンシング画像と自然画像(例えば、ImageNet)の間にドメインギャップがあり、IMPの事前学習重量で初期化されるディープラーニングモデルは、リモートセンシング画像理解には不十分である。 リモートセンシングコミュニティにおいて,いくつかの事前学習法が研究されているが,現在のリモートセンシング事前学習法は,リモートセンシング画像のみを用いて,曖昧な一般化の問題に直面している。 本稿では,リモートセンシング前学習フレームワークであるgeneric knowledge boosted remote sensing pre-training (gersp)を提案する。 GeRSPには2つの事前学習ブランチがある: 1) ラベルのないリモートセンシング画像からドメイン関連表現を学習するために、自己教師付き事前学習ブランチが採用されている。 2)ラベル付き自然画像から一般知識学習のための教師付き事前学習ブランチをgerspに統合する。 さらに、GeRSPは教師学生アーキテクチャを用いて2つの事前学習ブランチを組み合わせて、表現を一般知識と特殊知識で同時に学習し、深層学習モデル初期化のための強力な事前学習モデルを生成する。 最後に,対象検出,意味セグメンテーション,シーン分類という3つの下流タスクにおいて,gerspや他のリモートセンシング事前学習手法を評価する。 広範にわたる実験結果から,GeRSPは一貫した方法で頑健な表現を効果的に学習し,リモートセンシングによる下流タスクの性能向上を図っている。

Deep learning models are essential for scene classification, change detection, land cover segmentation, and other remote sensing image understanding tasks. Most backbones of existing remote sensing deep learning models are typically initialized by pre-trained weights obtained from ImageNet pre-training (IMP). However, domain gaps exist between remote sensing images and natural images (e.g., ImageNet), making deep learning models initialized by pre-trained weights of IMP perform poorly for remote sensing image understanding. Although some pre-training methods are studied in the remote sensing community, current remote sensing pre-training methods face the problem of vague generalization by only using remote sensing images. In this paper, we propose a novel remote sensing pre-training framework, Generic Knowledge Boosted Remote Sensing Pre-training (GeRSP), to learn robust representations from remote sensing and natural images for remote sensing understanding tasks. GeRSP contains two pre-training branches: (1) A self-supervised pre-training branch is adopted to learn domain-related representations from unlabeled remote sensing images. (2) A supervised pre-training branch is integrated into GeRSP for general knowledge learning from labeled natural images. Moreover, GeRSP combines two pre-training branches using a teacher-student architecture to simultaneously learn representations with general and special knowledge, which generates a powerful pre-trained model for deep learning model initialization. Finally, we evaluate GeRSP and other remote sensing pre-training methods on three downstream tasks, i.e., object detection, semantic segmentation, and scene classification. The extensive experimental results consistently demonstrate that GeRSP can effectively learn robust representations in a unified manner, improving the performance of remote sensing downstream tasks.
翻訳日:2024-01-23 19:29:29 公開日:2024-01-21
# ポンププローブ幾何による二次元電子分光法における2量子コヒーレンス抽出

Extracting double-quantum coherence in two-dimensional electronic spectroscopy under pump-probe geometry ( http://arxiv.org/abs/2401.01731v2 )

ライセンス: Link先を確認
Mao-Rui Cai, Xue Zhang, Zi-Qian Cheng, Teng-Fei Yan, Hui Dong(参考訳) 2次元電子分光(2des)は、箱車、コリニア、ポンププローブジオメトリなど、異なるジオメトリで実装することができる。 ポンププローブの形状は、2つのビームのみを重ね合わせ、位相サイクリングステップを減少させる利点がある。 しかしながら、その応用は通常、単一量子コヒーレンスと集団のダイナミクスを観察するために限られており、多体相互作用を反映する二重量子コヒーレンス(2Q)のダイナミクスを測定するという課題を残している。 パルス列を設計したポンププローブ形状下での2DES実験手法と2Qコヒーレンスを抽出する信号処理法を提案する。 プローブパルスがポンプパルスより早く届くように設計されたパルスシーケンスでは、測定信号には2q信号と0量子(0q)信号が含まれる。 位相サイクルと因果強制を用いたデータ処理により、2Q信号を抽出する。 この提案はルビジウム原子で実証されている。 また、D_{1}$およびD_{2}$行の2体双極子-双極子相互作用の集団共鳴を観察する。

Two-dimensional electronic spectroscopy (2DES) can be implemented with different geometries, e.g., BOXCARS, collinear and pump-probe geometries. The pump-probe geometry has its advantage of overlapping only two beams and reducing phase cycling steps. However, its applications are typically limited to observe the dynamics with single-quantum coherence and population, leaving the challenge to measure the dynamics of the double-quantum (2Q) coherence, which reflects the many-body interactions. We propose an experimental technique in 2DES under pump-probe geometry with a designed pulse sequence and the signal processing method to extract 2Q coherence. In the designed pulse sequence with the probe pulse arriving earlier than pump pulses, our measured signal includes the 2Q signal as well as the zero-quantum (0Q) signal. With phase cycling and the data processing using causality enforcement, we extract the 2Q signal. The proposal is demonstrated with the rubidium atoms. And we observe the collective resonances of two-body dipole-dipole interactions of both $D_{1}$ and $D_{2}$ lines.
翻訳日:2024-01-23 19:26:54 公開日:2024-01-21
# インコンテキスト演算子のPDE一般化:1次元スカラー非線形保存則に関する研究

PDE Generalization of In-Context Operator Networks: A Study on 1D Scalar Nonlinear Conservation Laws ( http://arxiv.org/abs/2401.07364v2 )

ライセンス: Link先を確認
Liu Yang, Stanley J. Osher(参考訳) 幅広いPDE関連科学学習タスクのための単一大規模モデルを構築することができるか? このモデルは、微調整なしで新しい形式であっても新しいPDEに一般化できるだろうか? In-context operator learningとそれに対応するモデル In-Context Operator Networks (ICON) は、これらの質問を最初に検討したものである。 最初の質問に関するICONの能力は以前にも実証されている。 本稿では,PDE を ICON で解くための詳細な方法論について述べるとともに,ICON モデル1つが,異なるステップで異なる方程式を前進・逆予測し,適切に設計したデータプロンプトを提供する方法を示す。 第二の質問に対して正の証拠を示す、すなわち、ICON は微調整なしで新しい形式を持つ PDE を一般化することができる。 これは、時間的進化を持つPDEの族である1次元スカラー非線形保存則の研究によって実証される。 また、関数や方程式をICONの機能範囲に変換することで、ICONモデルが対処できる問題の範囲を広げる方法を示す。 本論文の進展は,PDE関連タスクの基礎モデルを,コンテキスト内演算子学習フレームワークの下で学習するための重要なステップであると考えている。

Can we build a single large model for a wide range of PDE-related scientific learning tasks? Can this model generalize to new PDEs, even of new forms, without any fine-tuning? In-context operator learning and the corresponding model In-Context Operator Networks (ICON) represent an initial exploration of these questions. The capability of ICON regarding the first question has been demonstrated previously. In this paper, we present a detailed methodology for solving PDE problems with ICON, and show how a single ICON model can make forward and reverse predictions for different equations with different strides, provided with appropriately designed data prompts. We show the positive evidence to the second question, i.e., ICON can generalize well to some PDEs with new forms without any fine-tuning. This is exemplified through a study on 1D scalar nonlinear conservation laws, a family of PDEs with temporal evolution. We also show how to broaden the range of problems that an ICON model can address, by transforming functions and equations to ICON's capability scope. We believe that the progress in this paper is a significant step towards the goal of training a foundation model for PDE-related tasks under the in-context operator learning framework.
翻訳日:2024-01-23 19:17:22 公開日:2024-01-21
# BUGSPHP:PHPの自動プログラム修復のためのデータセット

BUGSPHP: A dataset for Automated Program Repair in PHP ( http://arxiv.org/abs/2401.07356v2 )

ライセンス: Link先を確認
K.D. Pramod, W.T.N. De Silva, W.U.K. Thabrew, Ridwan Shariffdeen, Sandareka Wickramanayake(参考訳) 自動プログラム修正(APR)は、デバッグとバグ修正時間を節約することで開発者の生産性を向上させる。 APRはC/C++とJavaプログラムで広く研究されているが、ベンチマークPHPバグデータセットがないため、PHPプログラムのバグについてはほとんど研究されていない。 PHPが20年以上にわたって最も広く使われているサーバーサイド言語の一つであり、eコマース、ソーシャルネットワーク、コンテンツ管理といったさまざまなコンテキストで使われていることは驚くべきことです。 本稿では,実世界のアプリケーションであるBUGSPHPにおけるPHPバグのベンチマークデータセットを提案する。 データセットはトレーニングとテストデータセットで構成され、GitHubから別々にキュレーションされ、ローカルに処理される。 トレーニングデータセットには600,000以上のバグ修正コミットが含まれている。 テストデータセットには、開発者が提供するテストケースを備えた手作業によるバグ修正コミット513が含まれている。

Automated Program Repair (APR) improves developer productivity by saving debugging and bug-fixing time. While APR has been extensively explored for C/C++ and Java programs, there is little research on bugs in PHP programs due to the lack of a benchmark PHP bug dataset. This is surprising given that PHP has been one of the most widely used server-side languages for over two decades, being used in a variety of contexts such as e-commerce, social networking, and content management. This paper presents a benchmark dataset of PHP bugs on real-world applications called BUGSPHP, which can enable research on analysis, testing, and repair for PHP programs. The dataset consists of training and test datasets, separately curated from GitHub and processed locally. The training dataset includes more than 600,000 bug-fixing commits. The test dataset contains 513 manually validated bug-fixing commits equipped with developer-provided test cases to assess patch correctness.
翻訳日:2024-01-23 19:17:04 公開日:2024-01-21
# リポジトリレベルコード生成における自動補完ツールの使い方

Teaching Code LLMs to Use Autocompletion Tools in Repository-Level Code Generation ( http://arxiv.org/abs/2401.06391v2 )

ライセンス: Link先を確認
Chong Wang and Jian Zhang and Yebo Feng and Tianlin Li and Weisong Sun and Yang Liu and Xin Peng(参考訳) 最近のコード大言語モデル(LLM)は、スタンドアロン関数の生成において有望なパフォーマンスを示しているが、リポジトリレベルの依存性(例えば、ユーザ定義属性)に対する認識の欠如により、リポジトリレベルのコード生成の制限に直面している。 本稿では、自動補完ツールをコードLLM生成プロセスに統合し、これらの依存関係に対処するToolGenを紹介する。 ToolGenは、Trigger InsertionとModel Fine-tuning(Offline)とTool-Integated Code Generation(Online)の2つの主要なフェーズで構成されている。 オフラインフェーズでは、ToolGenは特定のコード内の機能を特別なマークトークンで拡張し、自動補完ツールを起動する位置を示す。 これらの拡張関数は対応するドクストリングとともに、選択されたコードLLMを微調整するために使用される。 オンラインフェーズでは、ToolGenは微調整LDMを使用してトークンを段階的に予測することで関数を反復的に生成する。 マークトークンに遭遇するたびに、ToolGenは自動補完ツールを呼び出して、コード補完を提案し、最も適切なものを選択する。 リポジトリレベルのコード生成におけるToolGenの有効性を評価するために、包括的な実験を行う。 この評価を容易にするために、680の現実世界のコードリポジトリからなるベンチマークを作成し、新しい2つのリポジトリレベルのメトリクス: Dependency CoverageとStatic Validity Rateを導入しました。 その結果、ツールゲンは依存関係のカバレッジを15.2%から45.8%、静的有効性率を10.9%から42.2%に大幅に改善し、3つの異なるコードllmで改善した。 さらに,汎用性評価により,様々なモデルアーキテクチャやスケールを含む多様なコードllmに適用した場合のツールゲンの性能の一貫性を確認した。

Recent code large language models (LLMs) have shown promising performance in generating standalone functions but face limitations in repository-level code generation due to their lack of awareness of repository-level dependencies (e.g., user-defined attributes), resulting in dependency errors such as undefined-variable and no-member errors. In this work, we introduce ToolGen, an approach that integrates autocompletion tools into the code LLM generation process to address these dependencies. ToolGen comprises two main phases: Trigger Insertion and Model Fine-tuning (Offline), and Tool-integrated Code Generation (Online). During the offline phase, ToolGen augments functions within a given code corpus with a special mark token, indicating positions to trigger autocompletion tools. These augmented functions, along with their corresponding docstrings, are then used to fine-tune a selected code LLM. In the online phase, ToolGen iteratively generates functions by predicting tokens step-by-step using the fine-tuned LLM. Whenever a mark token is encountered, ToolGen invokes the autocompletion tool to suggest code completions and selects the most appropriate one. We conduct comprehensive experiments to evaluate ToolGen's effectiveness in repository-level code generation. To facilitate this evaluation, we create a benchmark comprising 680 real-world code repositories and introduce two new repository-level metrics: Dependency Coverage and Static Validity Rate. The results demonstrate that ToolGen significantly improves Dependency Coverage by 15.2% to 45.8% and Static Validity Rate by 10.9% to 42.2% across three distinct code LLMs, while maintaining competitive performance in widely-recognized similarity metrics. Furthermore, our generalizability evaluation confirms ToolGen's consistent performance when applied to diverse code LLMs, including various model architectures and scales.
翻訳日:2024-01-23 19:15:25 公開日:2024-01-21
# PatchAD: 時系列異常検出のためのパッチベースMLPミキサ

PatchAD: Patch-based MLP-Mixer for Time Series Anomaly Detection ( http://arxiv.org/abs/2401.09793v2 )

ライセンス: Link先を確認
Zhijie Zhong, Zhiwen Yu, Yiyuan Yang, Weizheng Wang, Kaixiang Yang(参考訳) 異常検出は時系列分析の重要な側面であり、時系列サンプルにおける異常事象の同定を目的としている。 このタスクの中心的な課題は、ラベルラッキングシナリオにおける正規および異常パターンの表現を効果的に学習することにある。 これまでの研究は主に復元に基づくアプローチに依存し、モデルの表現能力を制限していた。 さらに、現在のディープラーニングベースの手法のほとんどは十分に軽量ではないため、異常検出のためのより効率的なフレームワークを設計する必要がある。 本研究では,表現抽出と異常検出にコントラスト学習を利用するマルチスケールパッチベースmlp-mixerアーキテクチャであるpatchadを提案する。 具体的には、PatchADは4つの異なるMLPミキサーで構成されており、MLPアーキテクチャを高効率で軽量なアーキテクチャにのみ活用している。 さらに,潜在的なモデル劣化を軽減するために,2つの制約モジュールを革新的に開発した。 総合的な実験により、PatchADは複数の実世界の多変量時系列データセットにまたがって最先端の結果を達成する。 私たちのコードは公開されています。 \footnote{\url{https://github.com/EmorZz1G/PatchAD}}

Anomaly detection stands as a crucial aspect of time series analysis, aiming to identify abnormal events in time series samples. The central challenge of this task lies in effectively learning the representations of normal and abnormal patterns in a label-lacking scenario. Previous research mostly relied on reconstruction-based approaches, restricting the representational abilities of the models. In addition, most of the current deep learning-based methods are not lightweight enough, which prompts us to design a more efficient framework for anomaly detection. In this study, we introduce PatchAD, a novel multi-scale patch-based MLP-Mixer architecture that leverages contrastive learning for representational extraction and anomaly detection. Specifically, PatchAD is composed of four distinct MLP Mixers, exclusively utilizing the MLP architecture for high efficiency and lightweight architecture. Additionally, we also innovatively crafted a dual project constraint module to mitigate potential model degradation. Comprehensive experiments demonstrate that PatchAD achieves state-of-the-art results across multiple real-world multivariate time series datasets. Our code is publicly available.\footnote{\url{https://github.com/EmorZz1G/PatchAD}}
翻訳日:2024-01-23 19:08:39 公開日:2024-01-21
# 意味不明なドメイン翻訳に向けて:分散分布マッチングアプローチ

Towards Identifiable Unsupervised Domain Translation: A Diversified Distribution Matching Approach ( http://arxiv.org/abs/2401.09671v2 )

ライセンス: Link先を確認
Sagar Shrestha and Xiao Fu(参考訳) 教師なしドメイン翻訳(UDT)は、あるドメイン(例えばスケッチ)から別のドメイン(例えば写真)にサンプルを変換する関数を見つけることを目的としており、高レベルの意味の意味(`content''とも呼ばれる)を変更することはない。 翻訳関数は、変換されたソースドメインとターゲットドメインの確率分布マッチングによって求められることが多い。 CycleGANは間違いなくこのラインの最も代表的なアプローチである。 しかし、文献では、CycleGANと変種は所望の翻訳関数を識別できず、内容が一致しない翻訳を生成することに気づいた。 この制限は、学習基準の解空間における複数の翻訳関数、すなわち '`measure-serving automorphism' (MPA) の存在によって生じる。 このような識別可能性の問題に対する認識にもかかわらず、解決策はいまだ解明されていない。 本研究は中核的識別可能性調査を掘り下げ, MPA除去理論を導入する。 解析の結果,複数対のドメイン間条件分布が学習関数と一致する場合,MPAは存在しない可能性が示唆された。 我々の理論は、古典的なアプローチのように、データドメイン全体以外の、ドメインの補助変数誘発サブセットに対する分布マッチングを用いたUDT学習者につながります。 提案フレームワークは,適切な UDT 設定下での翻訳識別性を,私たちの知る限り初めて確立したフレームワークである。 実験は我々の理論的な主張と相関する。

Unsupervised domain translation (UDT) aims to find functions that convert samples from one domain (e.g., sketches) to another domain (e.g., photos) without changing the high-level semantic meaning (also referred to as ``content''). The translation functions are often sought by probability distribution matching of the transformed source domain and target domain. CycleGAN stands as arguably the most representative approach among this line of work. However, it was noticed in the literature that CycleGAN and variants could fail to identify the desired translation functions and produce content-misaligned translations. This limitation arises due to the presence of multiple translation functions -- referred to as ``measure-preserving automorphism" (MPA) -- in the solution space of the learning criteria. Despite awareness of such identifiability issues, solutions have remained elusive. This study delves into the core identifiability inquiry and introduces an MPA elimination theory. Our analysis shows that MPA is unlikely to exist, if multiple pairs of diverse cross-domain conditional distributions are matched by the learning function. Our theory leads to a UDT learner using distribution matching over auxiliary variable-induced subsets of the domains -- other than over the entire data domains as in the classical approaches. The proposed framework is the first to rigorously establish translation identifiability under reasonable UDT settings, to our best knowledge. Experiments corroborate with our theoretical claims.
翻訳日:2024-01-23 19:08:04 公開日:2024-01-21
# ヘテロゲニティ認識領域適応核セグメンテーションのための超分割一般化学習

Learning to Generalize over Subpartitions for Heterogeneity-aware Domain Adaptive Nuclei Segmentation ( http://arxiv.org/abs/2401.09496v2 )

ライセンス: Link先を確認
Jianan Fan, Dongnan Liu, Hang Chang, and Weidong Cai(参考訳) アノテーション不足とクロスモダリティ/定常データ分散シフトは、デジタル病理学における潜在的な応用範囲の広い核解析へのディープラーニングモデルの適用を妨げる2つの大きな障害である。 近年,組織病理画像における非教師なし核分画の異なる撮像モード間の分布ギャップを軽減するために,未教師なし領域適応法 (unsupervised domain adaptation,uda) が提案されている。 しかし、既存のudaメソッドは、各ドメイン内のデータ分布が一様であるべきだという仮定に基づいている。 組織病理組織学的対象領域とソースドメインを一体的に連携させることを提案し,混合癌とサンプリング臓器によって引き起こされる亜分画に対する重度のドメイン内不一致を無視した。 本稿では,病理組織学領域における異質性を明確に検討し,その解決のためにオープン複合ドメイン適応(OCDA)を導入することを提案する。 具体的には、画像レベルとインスタンスレベルの両方でドメイン不変の特徴表現を取得するために、2段階のアンタングルメントフレームワークを提案する。 全体的な設計は、インスタンスワイドのバリエーションを捉えるのに苦労する既存のOCDAアプローチの制限に対処する。 ここでは,2つのレギュラー化戦略を,病理組織像におけるリッチな分節特異的特性を活用し,サブドメイン分解を促進するために考案した。 さらに,合成画像の核過剰発生と変形を防止するために,二重分岐核形状と構造保存モジュールを提案する。 多様なデータセットにまたがるクロスモダリティおよびクロスステイティシナリオに関する実験結果は、最先端のUDA法やOCDA法と比較して、我々の手法の優位性を示している。

Annotation scarcity and cross-modality/stain data distribution shifts are two major obstacles hindering the application of deep learning models for nuclei analysis, which holds a broad spectrum of potential applications in digital pathology. Recently, unsupervised domain adaptation (UDA) methods have been proposed to mitigate the distributional gap between different imaging modalities for unsupervised nuclei segmentation in histopathology images. However, existing UDA methods are built upon the assumption that data distributions within each domain should be uniform. Based on the over-simplified supposition, they propose to align the histopathology target domain with the source domain integrally, neglecting severe intra-domain discrepancy over subpartitions incurred by mixed cancer types and sampling organs. In this paper, for the first time, we propose to explicitly consider the heterogeneity within the histopathology domain and introduce open compound domain adaptation (OCDA) to resolve the crux. In specific, a two-stage disentanglement framework is proposed to acquire domain-invariant feature representations at both image and instance levels. The holistic design addresses the limitations of existing OCDA approaches which struggle to capture instance-wise variations. Two regularization strategies are specifically devised herein to leverage the rich subpartition-specific characteristics in histopathology images and facilitate subdomain decomposition. Moreover, we propose a dual-branch nucleus shape and structure preserving module to prevent nucleus over-generation and deformation in the synthesized images. Experimental results on both cross-modality and cross-stain scenarios over a broad range of diverse datasets demonstrate the superiority of our method compared with state-of-the-art UDA and OCDA methods.
翻訳日:2024-01-23 19:07:44 公開日:2024-01-21
# 分子コンフォメーション予測のための拡散駆動生成枠組み

Diffusion-Driven Generative Framework for Molecular Conformation Prediction ( http://arxiv.org/abs/2401.09451v2 )

ライセンス: Link先を確認
Bobin Yang, Jie Deng, Zhenghan Chen, Ruoxue Wu(参考訳) 二次元グラフ表現から3次元分子配置を導出するタスクは、計算化学と薬学の発展において重要な役割を担っている。 特に深層生成ネットワークの領域における機械学習の急速な進歩は、この文脈における予測モデリングの精度に革命をもたらした。 従来のアプローチでは、最初は原子間距離を推定し、その後距離幾何学の問題を解くことによって空間分子構造を精製するという2段階の戦略が採用されている。 しかし、このシーケンシャルなアプローチは時折、局所的な原子配列の複雑さを正確に捉え、結果として生じる構造モデルの忠実さを損なう。 これらの制限に対処するため、本研究では \method{} と呼ばれる最先端生成フレームワークを導入する。 この枠組みは古典的非平衡熱力学で観察される拡散原理に基づいている。 \method{} は原子を独立した実体とみなし、拡散の逆転を導き、マルコフ連鎖に似た過程を通じて確率的雑音の分布をコヒーレントな分子構造に変換する。 この変換は抽象潜在空間における分子グラフの初期表現から始まり、タスクの特定の要求を満たすように注意深く調整された洗練された双レベル最適化スキームによって三次元構造の実現が決定される。 このモデリングにおける大きな課題の1つは、生成した分子コンフォメーションが物理法則に準拠することを保証するために、ロート遷移不変性を維持することである。 広範な実験評価により、提案された \method{} が最先端手法と比較して有効であることが確認された。

The task of deducing three-dimensional molecular configurations from their two-dimensional graph representations holds paramount importance in the fields of computational chemistry and pharmaceutical development. The rapid advancement of machine learning, particularly within the domain of deep generative networks, has revolutionized the precision of predictive modeling in this context. Traditional approaches often adopt a two-step strategy: initially estimating interatomic distances and subsequently refining the spatial molecular structure by solving a distance geometry problem. However, this sequential approach occasionally falls short in accurately capturing the intricacies of local atomic arrangements, thereby compromising the fidelity of the resulting structural models. Addressing these limitations, this research introduces a cutting-edge generative framework named \method{}. This framework is grounded in the principles of diffusion observed in classical non-equilibrium thermodynamics. \method{} views atoms as discrete entities and excels in guiding the reversal of diffusion, transforming a distribution of stochastic noise back into coherent molecular structures through a process akin to a Markov chain. This transformation commences with the initial representation of a molecular graph in an abstract latent space, culminating in the realization of three-dimensional structures via a sophisticated bilevel optimization scheme meticulously tailored to meet the specific requirements of the task. One of the formidable challenges in this modeling endeavor involves preserving roto-translational invariance to ensure that the generated molecular conformations adhere to the laws of physics. Extensive experimental evaluations confirm the efficacy of the proposed \method{} in comparison to state-of-the-art methods.
翻訳日:2024-01-23 19:06:51 公開日:2024-01-21
# 大規模言語モデルのコードシミュレーション問題

Code Simulation Challenges for Large Language Models ( http://arxiv.org/abs/2401.09074v2 )

ライセンス: Link先を確認
Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge(参考訳) 本稿では,Large Language Models (LLM) がコンピュータコードやアルゴリズムの実行をシミュレートできる範囲について検討する。 まず、直線的なプログラムを見て、現在のllmがこのような単純なプログラムでもパフォーマンスの低下を示していることを示します。 次に、クリティカルパスと冗長命令を含むプログラムをシミュレートするLLMの能力について検討する。 また、ソートアルゴリズムとネストループを用いた直線プログラムシミュレーションを超越し、ルーチンの計算複雑性がLCMの実行をシミュレートする能力に直接影響を与えることを示す。 我々はLLMが命令を逐次実行し、短いプログラムや標準手順でのみエラーマージンが低いことを観察する。 llmsのコードシミュレーションは、パターン認識と記憶能力との緊張状態にある: 記憶が有害なタスクでは、コード実行ラインを1行ずつシミュレートする新しいプロンプト手法を提案する。 経験的に、新しい連鎖シミュレーション(cosm)法は、記憶の落とし穴を避けることによって思考促進アプローチの標準連鎖を改善する。

We investigate the extent to which Large Language Models (LLMs) can simulate the execution of computer code and algorithms. We begin by looking at straight line programs, and show that current LLMs demonstrate poor performance even with such simple programs -- performance rapidly degrades with the length of code. We then investigate the ability of LLMs to simulate programs that contain critical paths and redundant instructions. We also go beyond straight line program simulation with sorting algorithms and nested loops, and we show the computational complexity of a routine directly affects the ability of an LLM to simulate its execution. We observe that LLMs execute instructions sequentially and with a low error margin only for short programs or standard procedures. LLMs' code simulation is in tension with their pattern recognition and memorisation capabilities: on tasks where memorisation is detrimental, we propose a novel prompting method to simulate code execution line by line. Empirically, our new Chain of Simulation (CoSm) method improves on the standard Chain of Thought prompting approach by avoiding the pitfalls of memorisation.
翻訳日:2024-01-23 19:06:00 公開日:2024-01-21
# 拡散モデルに対するデータ帰属:時間ステップによる影響推定バイアス

Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation ( http://arxiv.org/abs/2401.09031v2 )

ライセンス: Link先を確認
Tong Xie, Haoyu Li, Andrew Bai, Cho-Jui Hsieh(参考訳) データアトリビューションメソッドはモデルの振る舞いをトレーニングデータセットにトレースし、'ブラックボックス'ニューラルネットワークをより理解するための効果的なアプローチを提供する。 モデル出力とトレーニングデータのさまざまな設定における定量化可能なリンクが先行研究で確立されているが、トレーニングサンプルに関する拡散モデル出力の解釈は未検討のままである。 特に拡散モデルは、過去の文脈における即時的な入出力関係の代わりに一連のタイムステップで動作し、既存のフレームワークを直接拡散モデルに拡張する上で大きな課題となる。 特にDiffusion-TracInは、この時間力学を取り入れ、サンプルの損失勾配ノルムが時間ステップに大きく依存しているのを観察する。 この傾向は影響推定に顕著なバイアスをもたらし、特に大きなノルム誘導時間ステップで訓練されたサンプルに顕著であり、一般に影響がある。 この効果を緩和するため,我々は,興味のあるテストサンプルをよりターゲットとしたトレーニングサンプルの検索を可能にする再正規化適応として拡散再帰法を導入し,影響の局所的測定とより直感的な可視化を可能にした。 提案手法の有効性を,様々な評価指標と補助課題を用いて実証し,一般的な影響サンプルの量を,元の量の$\frac{1}{3}$に削減した。

Data attribution methods trace model behavior back to its training dataset, offering an effective approach to better understand ''black-box'' neural networks. While prior research has established quantifiable links between model output and training data in diverse settings, interpreting diffusion model outputs in relation to training samples remains underexplored. In particular, diffusion models operate over a sequence of timesteps instead of instantaneous input-output relationships in previous contexts, posing a significant challenge to extend existing frameworks to diffusion models directly. Notably, we present Diffusion-TracIn that incorporates this temporal dynamics and observe that samples' loss gradient norms are highly dependent on timestep. This trend leads to a prominent bias in influence estimation, and is particularly noticeable for samples trained on large-norm-inducing timesteps, causing them to be generally influential. To mitigate this effect, we introduce Diffusion-ReTrac as a re-normalized adaptation that enables the retrieval of training samples more targeted to the test sample of interest, facilitating a localized measurement of influence and considerably more intuitive visualization. We demonstrate the efficacy of our approach through various evaluation metrics and auxiliary tasks, reducing the amount of generally influential samples to $\frac{1}{3}$ of its original quantity.
翻訳日:2024-01-23 19:05:30 公開日:2024-01-21
# AntiPhishStack: 最適化フィッシングURL検出のためのLSTMに基づくスタック一般化モデル

AntiPhishStack: LSTM-based Stacked Generalization Model for Optimized Phishing URL Detection ( http://arxiv.org/abs/2401.08947v2 )

ライセンス: Link先を確認
Saba Aslam, Hafsa Aslam, Arslan Manzoor, Chen Hui, Abdur Rasool(参考訳) 革命的なオンラインウェブサービスへの依存が拡大し、セキュリティリスクが高まった。 従来のフィッシングシステムは、機械学習と手動機能に依存しており、進化する戦術に苦しむ。 ディープラーニングの最近の進歩は、新しいフィッシングチャレンジと悪意のあるurlに取り組むための有望な手段を提供する。 本稿では,フィッシングサイトを検出するための2相スタック一般化モデルであるAntiPhishStackを提案する。 このモデルは、URLと文字レベルのTF-IDF特徴の学習を対称的に活用し、新たなフィッシング脅威に対処する能力を高める。 フェーズIでは、特徴をベース機械学習分類器でトレーニングし、強靭な平均予測にK倍のクロスバリデーションを用いる。 フェーズIIでは、動的コンパイルのための5つの適応オプティマイザを備えた2層スタックベースのLSTMネットワークが採用され、これらの特徴のプレミア予測が保証されている。 さらに、両方の位相からの対称予測は最適化され、メタXGBoost分類器を訓練するために統合され、最終的な堅牢な予測に寄与する。 この作業の重要性は、以前のフィッシング固有の機能知識なしで運用するAntiPhishStackによるフィッシング検出の進行にある。 良性およびフィッシングまたは悪意のあるurlを含む2つのベンチマークデータセットの実験的検証は、モデルの例外的なパフォーマンスを示し、既存の研究と比較して96.04%の精度を達成している。 本研究は、情報セキュリティにおける対称性と非対称性に関する議論に価値を付加し、サイバー脅威の進展に直面したネットワークセキュリティを強化するための先進的なソリューションを提供する。

The escalating reliance on revolutionary online web services has introduced heightened security risks, with persistent challenges posed by phishing despite extensive security measures. Traditional phishing systems, reliant on machine learning and manual features, struggle with evolving tactics. Recent advances in deep learning offer promising avenues for tackling novel phishing challenges and malicious URLs. This paper introduces a two-phase stack generalized model named AntiPhishStack, designed to detect phishing sites. The model leverages the learning of URLs and character-level TF-IDF features symmetrically, enhancing its ability to combat emerging phishing threats. In Phase I, features are trained on a base machine learning classifier, employing K-fold cross-validation for robust mean prediction. Phase II employs a two-layered stacked-based LSTM network with five adaptive optimizers for dynamic compilation, ensuring premier prediction on these features. Additionally, the symmetrical predictions from both phases are optimized and integrated to train a meta-XGBoost classifier, contributing to a final robust prediction. The significance of this work lies in advancing phishing detection with AntiPhishStack, operating without prior phishing-specific feature knowledge. Experimental validation on two benchmark datasets, comprising benign and phishing or malicious URLs, demonstrates the model's exceptional performance, achieving a notable 96.04% accuracy compared to existing studies. This research adds value to the ongoing discourse on symmetry and asymmetry in information security and provides a forward-thinking solution for enhancing network security in the face of evolving cyber threats.
翻訳日:2024-01-23 19:04:47 公開日:2024-01-21
# Chem-FINESE:テキスト再構成によるファインショット要素抽出の検証

Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through Text Reconstruction ( http://arxiv.org/abs/2401.10189v2 )

ライセンス: Link先を確認
Qingyun Wang, Zixuan Zhang, Hongxiang Li, Xuan Liu, Jiawei Han, Heng Ji, Huimin Zhao(参考訳) 化学領域における粒度の少ないエンティティ抽出には、2つのユニークな課題がある。 第一に、一般ドメインのエンティティ抽出タスクと比較して、化学論文からの文は、通常より多くのエンティティを含んでいる。 さらに、エンティティ抽出モデルは通常、長い尾型のエンティティを抽出することが困難である。 本稿では,これら2つの課題に対処するために,シークエンス・ツー・シーケンス(seq2seq)をベースとした複数ショットエンティティ抽出手法であるChem-FINESEを提案する。 本発明のchem-fineseは、入力文から名前付きエンティティを抽出するseq2seqエンティティ抽出器と、抽出されたエンティティから元の入力文を再構築するseq2seq自己評価モジュールである。 優れたエンティティ抽出システムがエンティティを忠実に抽出する必要があるという事実に触発されて、新しい自己検証モジュールはエンティティ抽出結果を活用して元の入力文を再構築する。 さらに, 抽出過程での過剰コピーを減らすために, コントラスト損失を新たに設計する。 最後に、ChemNERスキーマでドメインの専門家によって注釈付けされた、新しいきめ細かい化学エンティティ抽出データセットであるChemNER+をリリースする。 ChemNER+とCHEMETのデータセットによる数ショット設定の実験では、新たに提案したフレームワークは、それぞれ8.26%と6.84%の絶対F1スコアゲインに寄与している。

Fine-grained few-shot entity extraction in the chemical domain faces two unique challenges. First, compared with entity extraction tasks in the general domain, sentences from chemical papers usually contain more entities. Moreover, entity extraction models usually have difficulty extracting entities of long-tailed types. In this paper, we propose Chem-FINESE, a novel sequence-to-sequence (seq2seq) based few-shot entity extraction approach, to address these two challenges. Our Chem-FINESE has two components: a seq2seq entity extractor to extract named entities from the input sentence and a seq2seq self-validation module to reconstruct the original input sentence from extracted entities. Inspired by the fact that a good entity extraction system needs to extract entities faithfully, our new self-validation module leverages entity extraction results to reconstruct the original input sentence. Besides, we design a new contrastive loss to reduce excessive copying during the extraction process. Finally, we release ChemNER+, a new fine-grained chemical entity extraction dataset that is annotated by domain experts with the ChemNER schema. Experiments in few-shot settings with both ChemNER+ and CHEMET datasets show that our newly proposed framework has contributed up to 8.26% and 6.84% absolute F1-score gains respectively.
翻訳日:2024-01-23 18:54:12 公開日:2024-01-21
# トラヒックフロー予測のための新しいハイブリッド時変グラフニューラルネットワーク

A novel hybrid time-varying graph neural network for traffic flow forecasting ( http://arxiv.org/abs/2401.10155v2 )

ライセンス: Link先を確認
Ben Ao Dai, Bao-Lin Ye(参考訳) グラフニューラルネットワーク(GNN)に基づく既存の交通流予測手法では,都市道路網における異なる交通ノードの空間的相関を記述するために,事前に定義されたグラフが使用されるのが一般的である。 しかし,空間相関を記述するための事前定義されたグラフの能力は,先行知識とグラフ生成法によって制限された。 データ駆動学習に基づく時間変化グラフは,事前定義されたグラフの欠点を部分的に克服することができるが,既存の適応グラフの学習能力は限られていた。 例えば、時変グラフは交通流データに固有の空間相関を適切に捉えることができないため、これらの問題を解決するために、交通流予測のためのハイブリッド時変グラフニューラルネットワーク(htvgnn)を提案する。

Real-time and accurate traffic flow prediction is the foundation for ensuring the efficient operation of intelligent transportation systems.In existing traffic flow prediction methods based on graph neural networks (GNNs), pre-defined graphs were usually used to describe the spatial correlations of different traffic nodes in urban road networks. However, the ability of pre-defined graphs used to describe spatial correlation was limited by prior knowledge and graph generation methods. Although time-varying graphs based on data-driven learning can partially overcome the drawbacks of pre-defined graphs, the learning ability of existing adaptive graphs was limited. For example, time-varying graphs cannot adequately capture the inherent spatial correlations in traffic flow data.In order to solve these problems, we have proposed a hybrid time-varying graph neural network (HTVGNN) for traffic flow prediction.
翻訳日:2024-01-23 18:53:45 公開日:2024-01-21
# 準周期電位による局所化相のレベルスペーシング分布

Level spacing distribution of localized phases induced by quasiperiodic potentials ( http://arxiv.org/abs/2401.10067v2 )

ライセンス: Link先を確認
Chao Yang and Yucheng Wang(参考訳) レベル統計は局在物理学の探求において重要な道具である。 乱れた局所化相のレベル間隔分布はポアソン統計に従い、多くの研究は自然に準周期的局所化相に適用する。 しかし、これは最近の数学的証明結果と矛盾する。 ここではポアソン統計から逸脱する準周期局所化相のレベル間隔分布を解析的に求める。 さらに、このレベル統計に基づいて、隣接するギャップの比率を導出し、1つのサンプルに対して$\delta$関数であることが判明し、数値的な研究とよく一致している。 さらに、乱れたシステムとは異なり、準周期系では、スペクトルの異なる領域にまたがるレベル間隔分布のばらつきがあり、サイズの増加とサンプルの増加は非同値である。 本研究は準周期系におけるレベル統計の再評価と準周期ポテンシャルと障害誘発局在の異なる効果の深い理解に有意な意味を持つ。

Level statistics is a crucial tool in the exploration of localization physics. The level spacing distribution of the disordered localized phase follows Poisson statistics, and many studies naturally apply it to the quasiperiodic localized phase. However, this is inconsistent with recent mathematical proof results. Here we analytically obtain the level spacing distribution of the quasiperiodic localized phase, which deviates from Poisson statistics. Moreover, based on this level statistics, we derive the ratio of adjacent gaps and find that for a single sample, it is a $\delta$ function, which is in excellent agreement with numerical studies. Additionally, unlike disordered systems, in quasiperiodic systems, there are variations in the level spacing distribution across different regions of the spectrum, and increasing the size and increasing the sample are non-equivalent. Our findings carry significant implications for the reevaluation of level statistics in quasiperiodic systems and a profound understanding of the distinct effects of quasiperiodic potentials and disorder induced localization.
翻訳日:2024-01-23 18:52:41 公開日:2024-01-21
# 階層型音声言語ディフルエンシーモデリングに向けて

Towards Hierarchical Spoken Language Dysfluency Modeling ( http://arxiv.org/abs/2401.10015v2 )

ライセンス: Link先を確認
Jiachen Lian and Gopala Anumanchipalli(参考訳) 言語障害モデリングは、言語療法と言語学習の両方においてボトルネックとなる。 しかし、この問題に体系的に対処する効果的なAIソリューションは存在しない。 我々は、不流音声と不流音声モデリングの概念を固める。 次に, 広範囲な手動アノテーションの必要をなくすために, 拡散転写と検出の両方に対処するUDMの階層的拡張であるH-UDM手法を提案する。 実験結果から, 転写タスクと検出タスクの両方を包含して導入した手法の有効性と信頼性が明らかとなった。

Speech disfluency modeling is the bottleneck for both speech therapy and language learning. However, there is no effective AI solution to systematically tackle this problem. We solidify the concept of disfluent speech and disfluent speech modeling. We then present Hierarchical Unconstrained Disfluency Modeling (H-UDM) approach, the hierarchical extension of UDM that addresses both disfluency transcription and detection to eliminate the need for extensive manual annotation. Our experimental findings serve as clear evidence of the effectiveness and reliability of the methods we have introduced, encompassing both transcription and detection tasks.
翻訳日:2024-01-23 18:52:24 公開日:2024-01-21
# 自己維持型ソフトウェアシステム(s4) : 解釈性と適応性の向上に向けて

Self-sustaining Software Systems (S4): Towards Improved Interpretability and Adaptation ( http://arxiv.org/abs/2401.11370v1 )

ライセンス: Link先を確認
Christian Cabrera and Andrei Paleyes and Neil D. Lawrence(参考訳) ソフトウェアシステムは、現実世界の問題を解決するために、さまざまなレベルで社会に影響を与える。 現代のソフトウェアシステムは、その複雑さが人間の理解の限界を超えるほど高度であることが多い。 これらのシステムは、実際の環境において、目標の変更、動的データ、予期せぬ障害、セキュリティの脅威に対応しなければならない。 システムの複雑さは解釈可能性に挑戦し、動的変化に対する自律的な応答を必要とする。 自律システムの応答を探究する2つの主要な研究領域:進化的コンピューティングと自律的コンピューティング。 進化的コンピューティングは、ソースコードの反復的な修正に基づくソフトウェアの改善に焦点を当てている。 自律コンピューティングは、システムの構造、振る舞い、環境変数を変更することで、システムのパフォーマンスを最適化することに焦点を当てる。 両方の分野からのアプローチは、自律的な意思決定を伝えるために、システムインタラクションから知識を蓄積するフィードバックループに依存する。 しかし、この知識はしばしば制限され、システムの解釈性と適応性が制限される。 本稿では,自己維持型ソフトウェアシステム(S4)を解釈可能かつ適応可能とする新しい概念を提案する。 s4は、現代的なソフトウェアシステムを定義して解釈性と適応性を改善する、利用可能なすべての知識ソース間のナレッジループを構築する。 本稿では,S4の概念を紹介する。

Software systems impact society at different levels as they pervasively solve real-world problems. Modern software systems are often so sophisticated that their complexity exceeds the limits of human comprehension. These systems must respond to changing goals, dynamic data, unexpected failures, and security threats, among other variable factors in real-world environments. Systems' complexity challenges their interpretability and requires autonomous responses to dynamic changes. Two main research areas explore autonomous systems' responses: evolutionary computing and autonomic computing. Evolutionary computing focuses on software improvement based on iterative modifications to the source code. Autonomic computing focuses on optimising systems' performance by changing their structure, behaviour, or environment variables. Approaches from both areas rely on feedback loops that accumulate knowledge from the system interactions to inform autonomous decision-making. However, this knowledge is often limited, constraining the systems' interpretability and adaptability. This paper proposes a new concept for interpretable and adaptable software systems: self-sustaining software systems (S4). S4 builds knowledge loops between all available knowledge sources that define modern software systems to improve their interpretability and adaptability. This paper introduces and discusses the S4 concept.
翻訳日:2024-01-23 16:57:59 公開日:2024-01-21
# 自動機械学習ツールの利点と限界に関する多言語文献レビュー

A Multivocal Literature Review on the Benefits and Limitations of Automated Machine Learning Tools ( http://arxiv.org/abs/2401.11366v1 )

ライセンス: Link先を確認
Kelly Azevedo, Luigi Quaranta, Fabio Calefato, Marcos Kalinowski(参考訳) コンテキスト。 機械学習(ML)の進歩は、すべてのアプリケーションドメインに革命をもたらし、前例のない変革を推進し、イノベーションを促進する。 しかし、これらの進歩にもかかわらず、いくつかの組織はMLベースの技術の採用に摩擦を経験している。 この文脈で、Automated Machine Learning(AutoML)技術は、MLの採用を民主化するための有望なソリューションとして提示されている。 目的。 私たちは、automlツールの使用のメリットと限界に関するエビデンスの概要を提供することを目的としています。 方法。 我々は多言語文献レビューを行い、学術文献から54の資料と、AutoMLの利点と限界について報告した灰色文献から108の資料を同定した。 論文から報告された利益と限界を抽出し,応用テーマ分析を行った。 結果だ 18のメリットと25の制限を特定しました。 メリットに関しては、automlツールがデータ準備、機能エンジニアリング、モデル構築、ハイパーパラメータチューニングといったmlワークフローのコアステップの合理化に役立ち、モデルパフォーマンス、効率、スケーラビリティに具体的なメリットがある点を強調します。 さらに、AutoMLは初心者と経験豊富なデータサイエンティストの両方に権限を与え、MLアクセシビリティを促進する。 一方、AutoMLの普及の障害となるいくつかの制限を強調します。 例えば、automlツールは透明性と相互運用性の障壁をもたらし、複雑なシナリオに対する柔軟性が制限され、mlワークフローの一貫性のないカバレッジを提供する。 結論だ ユーザによる機械学習の導入を促進するautomlの有効性は、ツールや使用するコンテキストによって異なる可能性がある。 現在、AutoMLツールは、置き換えるのではなく、人間の専門知識を高めるために使われており、熟練したユーザーを必要とする。

Context. Advancements in Machine Learning (ML) are revolutionizing every application domain, driving unprecedented transformations and fostering innovation. However, despite these advances, several organizations are experiencing friction in the adoption of ML-based technologies, mainly due to the shortage of ML professionals. In this context, Automated Machine Learning (AutoML) techniques have been presented as a promising solution to democratize ML adoption. Objective. We aim to provide an overview of the evidence on the benefits and limitations of using AutoML tools. Method. We conducted a multivocal literature review, which allowed us to identify 54 sources from the academic literature and 108 sources from the grey literature reporting on AutoML benefits and limitations. We extracted reported benefits and limitations from the papers and applied thematic analysis. Results. We identified 18 benefits and 25 limitations. Concerning the benefits, we highlight that AutoML tools can help streamline the core steps of ML workflows, namely data preparation, feature engineering, model construction, and hyperparameter tuning, with concrete benefits on model performance, efficiency, and scalability. In addition, AutoML empowers both novice and experienced data scientists, promoting ML accessibility. On the other hand, we highlight several limitations that may represent obstacles to the widespread adoption of AutoML. For instance, AutoML tools may introduce barriers to transparency and interoperability, exhibit limited flexibility for complex scenarios, and offer inconsistent coverage of the ML workflow. Conclusions. The effectiveness of AutoML in facilitating the adoption of machine learning by users may vary depending on the tool and the context in which it is used. As of today, AutoML tools are used to increase human expertise rather than replace it, and, as such, they require skilled users.
翻訳日:2024-01-23 16:57:33 公開日:2024-01-21
# 知識蒸留抽象化における信頼性保持特性

Confidence Preservation Property in Knowledge Distillation Abstractions ( http://arxiv.org/abs/2401.11365v1 )

ライセンス: Link先を確認
Dmitry Vengertsev, Elena Sherman(参考訳) ソーシャルメディアプラットフォームは、投稿やコメントの有害なコンテンツを検出することで悪意のある活動を防止する。 そのため、感情分析やコンテンツ理解のために、大規模なディープニューラルネットワークモデルを採用している。 BERTのようないくつかのモデルは複雑で、多くのパラメータを持ち、運用やメンテナンスに費用がかかる。 これらの欠陥を克服するため、産業専門家は、蒸留モデルを訓練して原モデルの分類挙動を再現する知識蒸留圧縮技術を採用している。 蒸留処理は、蒸留損失関数が停止基準に達すると終了する。 この機能は、主にオリジナルモデルと蒸留モデルが類似した分類行動を示すように設計されている。 しかし、分類精度の他に、蒸留モデルが適切な抽象化と見なすために保存すべき元のモデルには追加的な特性がある。 本研究では, 蒸留したTinyBERTモデルが元のBERTモデルの信頼性値を保持するかどうかを考察し, この信頼性保持特性が蒸留プロセスの過度パラメータのチューニングをいかに導くかを検討する。

Social media platforms prevent malicious activities by detecting harmful content of posts and comments. To that end, they employ large-scale deep neural network language models for sentiment analysis and content understanding. Some models, like BERT, are complex, and have numerous parameters, which makes them expensive to operate and maintain. To overcome these deficiencies, industry experts employ a knowledge distillation compression technique, where a distilled model is trained to reproduce the classification behavior of the original model. The distillation processes terminates when the distillation loss function reaches the stopping criteria. This function is mainly designed to ensure that the original and the distilled models exhibit alike classification behaviors. However, besides classification accuracy, there are additional properties of the original model that the distilled model should preserve to be considered as an appropriate abstraction. In this work, we explore whether distilled TinyBERT models preserve confidence values of the original BERT models, and investigate how this confidence preservation property could guide tuning hyperparameters of the distillation process.
翻訳日:2024-01-23 16:57:04 公開日:2024-01-21
# 高速テンソル決定図を用いた量子回路シミュレーション

Quantum Circuit Simulation with Fast Tensor Decision Diagram ( http://arxiv.org/abs/2401.11362v1 )

ライセンス: Link先を確認
Qirui Zhang, Mehdi Saligane, Hun-Seok Kim, David Blaauw, Georgios Tzimpragos and Dennis Sylvester(参考訳) 量子回路シミュレーションは、量子コンピューティングの研究と開発に不可欠な計算問題である。 この領域における主要なアプローチはテンソルネットワークであり、完全な量子ベクトルや行列を用いる方法よりも優れた並行性と少ない計算で評価されている。 しかし、利点があるにもかかわらず、配列ベースのテンソルは大きな冗長性を持つ。 本稿では,テンソル決定図を用いてオーバーヘッドをなくし,先行手法よりも大幅な高速化を実現するための新しいオープンソースフレームワークを提案する。 平均すると、冗長性豊富な回路上のGoogleのTensorNetworkライブラリ上で37$\times$、量子多値決定ダイアグラム上での25$\times$と144$\times$、それぞれGoogleランダムな量子回路上でのテンソル決定ダイアグラムの実装で37$\times$が提供される。 これを実現するために,再帰的テンソル決定ダイアグラム演算のための新しい線形複雑度階数簡略化アルゴリズムtetrisとエッジ中心データ構造を提案する。 さらに,二元決定図からテンソルネットワークの縮小順序と最適化の有効性について検討する。

Quantum circuit simulation is a challenging computational problem crucial for quantum computing research and development. The predominant approaches in this area center on tensor networks, prized for their better concurrency and less computation than methods using full quantum vectors and matrices. However, even with the advantages, array-based tensors can have significant redundancy. We present a novel open-source framework that harnesses tensor decision diagrams to eliminate overheads and achieve significant speedups over prior approaches. On average, it delivers a speedup of 37$\times$ over Google's TensorNetwork library on redundancy-rich circuits, and 25$\times$ and 144$\times$ over quantum multi-valued decision diagram and prior tensor decision diagram implementation, respectively, on Google random quantum circuits. To achieve this, we introduce a new linear-complexity rank simplification algorithm, Tetris, and edge-centric data structures for recursive tensor decision diagram operations. Additionally, we explore the efficacy of tensor network contraction ordering and optimizations from binary decision diagrams.
翻訳日:2024-01-23 16:56:49 公開日:2024-01-21
# 要約によるAPIドキュメンテーションの革命

Revolutionizing API Documentation through Summarization ( http://arxiv.org/abs/2401.11361v1 )

ライセンス: Link先を確認
AmirHossein Naghshzan, Sylvie Ratte(参考訳) この研究は、ソフトウェア開発の不可欠な側面であるアプリケーションプログラミングインタフェース(API)のドキュメンテーションの解釈に関わる課題に取り組む。 公式のapiドキュメンテーションは必須ではあるが、ナビゲートが難しく、stack overflowのような非公式なソースを開発者に提供する。 コードスニペットや議論を含むstack overflowの膨大なユーザ生成コンテンツを活用することで,bertopicおよびextractive summarizationを使用して,簡潔で有益なapiサマリーを自動的に生成します。 これらの要約には一般的な利用方法、一般的な開発者の問題、stack overflowの豊富な知識から得られた潜在的なソリューションなど、重要な洞察が含まれている。 ソフトウェア開発者はこれらの要約をパフォーマンス、一貫性、相互運用性を評価し、我々のアプローチの実用性に関する貴重なフィードバックを提供します。

This study tackles the challenges associated with interpreting Application Programming Interface (API) documentation, an integral aspect of software development. Official API documentation, while essential, can be lengthy and challenging to navigate, prompting developers to seek unofficial sources such as Stack Overflow. Leveraging the vast user-generated content on Stack Overflow, including code snippets and discussions, we employ BERTopic and extractive summarization to automatically generate concise and informative API summaries. These summaries encompass key insights like general usage, common developer issues, and potential solutions, sourced from the wealth of knowledge on Stack Overflow. Software developers evaluate these summaries for performance, coherence, and interoperability, providing valuable feedback on the practicality of our approach.
翻訳日:2024-01-23 16:56:29 公開日:2024-01-21
# PepHarmony: 統合シーケンスと構造に基づくペプチドエンコーディングのための多視点コントラスト学習フレームワーク

PepHarmony: A Multi-View Contrastive Learning Framework for Integrated Sequence and Structure-Based Peptide Encoding ( http://arxiv.org/abs/2401.11360v1 )

ライセンス: Link先を確認
Ruochi Zhang, Haoran Wu, Chang Liu, Huaping Li, Yuqian Wu, Kewei Li, Yifan Wang, Yifan Deng, Jiahui Chen, Fengfeng Zhou, Xin Gao(参考訳) タンパク質言語モデルの最近の進歩は、ペプチド配列の表現に大きな進歩をもたらした。 この分野での広範な探索にもかかわらず、ペプチド特有のニーズに合わせた事前訓練されたモデルは、ペプチドの複雑な構造や不安定な構造を捉えるのが難しいため、ほとんど役に立たないままである。 本研究では,配列に基づくペプチドエンコーディングタスクのための,新しい多視点コントラスト学習フレームワークPepHarmonyを紹介する。 pepharmonyは、コントラスト学習を通じて、シーケンスレベルおよび構造レベルの情報をシーケンスレベルのエンコーディングモジュールに革新的に結合する。 タンパク質データバンク(pdb)とアルファフォールドデータベースからデータセットを慎重に選択し、ペプチド配列と構造を包含する。 実験データでは、ペプハーモニーがペプチド配列と構造の間の複雑な関係をベースラインモデルと微調整モデルと比較する際、異常な能力を示した。 本モデルのロバスト性は広範なアブレーション研究によって確認され,予測性能向上におけるコントラスト損失と戦略データソートの重要な役割を強調する。 提案されたPepHarmonyフレームワークはペプチド表現への顕著な貢献であり、ペプチド薬物発見およびペプチド工学における将来の応用に有用な洞察を提供する。 この研究で使われているすべてのソースコードは、githubのhttps://github.com/zhangruochi/pepharmonyまたはhttp://www.healthinformaticslab.org/supp/で公開されている。

Recent advances in protein language models have catalyzed significant progress in peptide sequence representation. Despite extensive exploration in this field, pre-trained models tailored for peptide-specific needs remain largely unaddressed due to the difficulty in capturing the complex and sometimes unstable structures of peptides. This study introduces a novel multi-view contrastive learning framework PepHarmony for the sequence-based peptide encoding task. PepHarmony innovatively combines both sequence- and structure-level information into a sequence-level encoding module through contrastive learning. We carefully select datasets from the Protein Data Bank (PDB) and AlphaFold database to encompass a broad spectrum of peptide sequences and structures. The experimental data highlights PepHarmony's exceptional capability in capturing the intricate relationship between peptide sequences and structures compared with the baseline and fine-tuned models. The robustness of our model is confirmed through extensive ablation studies, which emphasize the crucial roles of contrastive loss and strategic data sorting in enhancing predictive performance. The proposed PepHarmony framework serves as a notable contribution to peptide representations, and offers valuable insights for future applications in peptide drug discovery and peptide engineering. We have made all the source code utilized in this study publicly accessible via GitHub at https://github.com/zhangruochi/PepHarmony or http://www.healthinformaticslab.org/supp/.
翻訳日:2024-01-23 16:56:15 公開日:2024-01-21
# ANNA: 自動運転車の異種交通におけるディープラーニングベースのデータセット

ANNA: A Deep Learning Based Dataset in Heterogeneous Traffic for Autonomous Vehicles ( http://arxiv.org/abs/2401.11358v1 )

ライセンス: Link先を確認
Mahedi Kamal, Tasnim Fariha, Afrina Kabir Zinia, Md. Abu Syed, Fahim Hasan Khan, Md. Mahbubur Rahman(参考訳) 最近の人工知能のブレークスルーは、自動運転アプリケーションの開発に非常に有望だ。 特にディープニューラルネットワークは、オブジェクト識別とセマンティックセグメンテーションを通じて半自律車の運転を支援するために利用されている。 自律車と半自律車のコンテキストにおける現在のデータセットの不適切性を評価するため、ANNAという新しいデータセットを作成しました。 本研究では、バングラデシュの観点から、既存のデータセットには含まれない、特定されていない車両を含むカスタムビルドデータセットについて論じる。 IOU(Intersection Over Union)メトリックを用いたモデルの評価により,データセットの妥当性チェックを行った。 その結果、バングラデシュのトラフィックに関するKITTIまたはCOCOデータセットでトレーニングされたモデルよりも、カスタムデータセットでトレーニングされたモデルの方が正確で効率的であることが判明した。 本研究は,自動運転車の高度化に向けた高精度かつ効率的な物体検出アルゴリズムの開発の重要性を強調した。

Recent breakthroughs in artificial intelligence offer tremendous promise for the development of self-driving applications. Deep Neural Networks, in particular, are being utilized to support the operation of semi-autonomous cars through object identification and semantic segmentation. To assess the inadequacy of the current dataset in the context of autonomous and semi-autonomous cars, we created a new dataset named ANNA. This study discusses a custom-built dataset that includes some unidentified vehicles in the perspective of Bangladesh, which are not included in the existing dataset. A dataset validity check was performed by evaluating models using the Intersection Over Union (IOU) metric. The results demonstrated that the model trained on our custom dataset was more precise and efficient than the models trained on the KITTI or COCO dataset concerning Bangladeshi traffic. The research presented in this paper also emphasizes the importance of developing accurate and efficient object detection algorithms for the advancement of autonomous vehicles.
翻訳日:2024-01-23 16:55:52 公開日:2024-01-21
# ProLex: 言語能力指向の語彙置換のためのベンチマーク

ProLex: A Benchmark for Language Proficiency-oriented Lexical Substitution ( http://arxiv.org/abs/2401.11356v1 )

ライセンス: Link先を確認
Xuanming Zhang, Zixun Chen, Zhou Yu(参考訳) Lexical Substitutionは、コンテキスト文で所定の対象単語の適切な代用を見つける。 しかし、その課題は、目標よりも同等または高い習熟度を持つ代用品を考えることに失敗し、言語学習者が書き方を改善するのに有益である可能性がある。 このギャップを埋めるために,新しいタスクである言語習熟度指向語彙置換を提案する。 また,適切な代用物だけでなく,優れた言語能力を示す代用物を生成するシステムの能力を評価するための新しいベンチマークである prolex も紹介する。 ベンチマークの他に,新しいタスクを自動実行可能なモデルを提案する。 タスク固有の合成データを微調整したLlama2-13Bモデルでは,Fスコアの平均3.2%でChatGPTを上回り,ProLexのGPT-4と同等の結果が得られることを示す。

Lexical Substitution discovers appropriate substitutes for a given target word in a context sentence. However, the task fails to consider substitutes that are of equal or higher proficiency than the target, an aspect that could be beneficial for language learners looking to improve their writing. To bridge this gap, we propose a new task, language proficiency-oriented lexical substitution. We also introduce ProLex, a novel benchmark designed to assess systems' ability to generate not only appropriate substitutes but also substitutes that demonstrate better language proficiency. Besides the benchmark, we propose models that can automatically perform the new task. We show that our best model, a Llama2-13B model fine-tuned with task-specific synthetic data, outperforms ChatGPT by an average of 3.2% in F-score and achieves comparable results with GPT-4 on ProLex.
翻訳日:2024-01-23 16:55:38 公開日:2024-01-21
# 正方形ワッサースタイン-2 確率微分方程式の効率的な再構成のための距離

Squared Wasserstein-2 Distance for Efficient Reconstruction of Stochastic Differential Equations ( http://arxiv.org/abs/2401.11354v1 )

ライセンス: Link先を確認
Mingtao Xia and Xiangting Li and Qijing Shen and Tom Chou(参考訳) 2つの確率微分方程式(SDE)に関連する2つの確率分布間の正方形ワッサーシュタイン-2(W_2$)距離を解析する。 この分析に基づき、ノイズデータからSDEの \textit{reconstruction} に2乗の$W_2$距離に基づく損失関数を適用することを提案する。 ワッサーシュタイン距離に基づく損失関数の実用性を示すため,多くの応用にまたがるSDEの再構成において,本手法の有効性を示す数値実験を行った。

We provide an analysis of the squared Wasserstein-2 ($W_2$) distance between two probability distributions associated with two stochastic differential equations (SDEs). Based on this analysis, we propose the use of a squared $W_2$ distance-based loss functions in the \textit{reconstruction} of SDEs from noisy data. To demonstrate the practicality of our Wasserstein distance-based loss functions, we performed numerical experiments that demonstrate the efficiency of our method in reconstructing SDEs that arise across a number of applications.
翻訳日:2024-01-23 16:55:25 公開日:2024-01-21
# コンテクスト帯域における一般共変量シフト下におけるロバスト分布評価

Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits ( http://arxiv.org/abs/2401.11353v1 )

ライセンス: Link先を確認
Yihong Guo, Hao Liu, Yisong Yue, Anqi Liu(参考訳) 本稿では,コンテキスト・バンディットにおけるオフライン・ポリシー評価の信頼性を高める分布的ロバストな手法を提案する。 本手法は,ログデータと対象データ間の状況および方針分布に相違がある場合に,ロバストな政策評価結果を提供することを目的とする。 当社の方法論の中心は,ログデータから条件付き報酬分布の推定を改善するために,分散的に堅牢な手法であるロバスト回帰の適用である。 我々は,ロバスト回帰から得られた報酬モデルを用いて,報酬モデルを確立された評価フレームワーク,すなわち直接メソッドと二重ロバストメソッドに統合することにより,政策価値評価の包括的なスイートを開発する。 理論的解析を通じて、提案した政策値推定器はバイアスに対して有限サンプル上限を提供し、特にシフトが大きい場合、従来の手法よりも明確な優位性を与える。 最後に,広範な政策評価シナリオを設計し,さまざまな規模のシフトとログおよびターゲットポリシの範囲をカバーした。 その結果,政策シフトのみの設定の場合の90%,一般共変量シフト設定のシナリオの72%において,我々のアプローチがベースライン手法を著しく上回っていることがわかった。

We introduce a distributionally robust approach that enhances the reliability of offline policy evaluation in contextual bandits under general covariate shifts. Our method aims to deliver robust policy evaluation results in the presence of discrepancies in both context and policy distribution between logging and target data. Central to our methodology is the application of robust regression, a distributionally robust technique tailored here to improve the estimation of conditional reward distribution from logging data. Utilizing the reward model obtained from robust regression, we develop a comprehensive suite of policy value estimators, by integrating our reward model into established evaluation frameworks, namely direct methods and doubly robust methods. Through theoretical analysis, we further establish that the proposed policy value estimators offer a finite sample upper bound for the bias, providing a clear advantage over traditional methods, especially when the shift is large. Finally, we designed an extensive range of policy evaluation scenarios, covering diverse magnitudes of shifts and a spectrum of logging and target policies. Our empirical results indicate that our approach significantly outperforms baseline methods, most notably in 90% of the cases under the policy shift-only settings and 72% of the scenarios under the general covariate shift settings.
翻訳日:2024-01-23 16:55:17 公開日:2024-01-21
# 量子機械学習 - NISQからフォールトトレランスへ

Quantum Machine Learning: from NISQ to Fault Tolerance ( http://arxiv.org/abs/2401.11351v1 )

ライセンス: Link先を確認
Yunfei Wang, Junyu Liu(参考訳) 量子デバイス上で機械学習アルゴリズムを実行する量子機械学習は、学術界とビジネス界の両方で大きな注目を集めている。 本稿では,量子機械学習の分野における様々な概念について,包括的で偏見のないレビューを行う。 これにはノイズの多い中間スケール量子(nisq)技術や、フォールトトレラント量子コンピューティングハードウェアと互換性のあるアルゴリズムのアプローチなどが含まれる。 本稿では,量子機械学習の基本概念,アルゴリズム,統計学習理論について述べる。

Quantum machine learning, which involves running machine learning algorithms on quantum devices, has garnered significant attention in both academic and business circles. In this paper, we offer a comprehensive and unbiased review of the various concepts that have emerged in the field of quantum machine learning. This includes techniques used in Noisy Intermediate-Scale Quantum (NISQ) technologies and approaches for algorithms compatible with fault-tolerant quantum computing hardware. Our review covers fundamental concepts, algorithms, and the statistical learning theory pertinent to quantum machine learning.
翻訳日:2024-01-23 16:54:56 公開日:2024-01-21
# フィン線制御における脈動性能最適化のための非同期並列強化学習

Asynchronous Parallel Reinforcement Learning for Optimizing Propulsive Performance in Fin Ray Control ( http://arxiv.org/abs/2401.11349v1 )

ライセンス: Link先を確認
Xin-Yang Liu, Dariush Bodaghi, Qian Xue, Xudong Zheng, Jian-Xun Wang(参考訳) 魚のひれは、複雑な流体環境下での多目的移動を促進するため、魚のひれ制御システムを構成する。 魚の移動のキネマティクスと流体力学の広範な研究にもかかわらず、フィン線運動における複雑な制御戦略はほとんど解明されていない。 深層強化学習(drl)は複雑な非線形ダイナミクスを管理する可能性を示したが、その試行錯誤性は、計算上環境相互作用を必要とする問題への応用を制限している。 本研究では,様々な推進性能目標に適した複雑なフィン線制御戦略を得るために,流体構造相互作用(FSI)環境と相互作用する最先端のオフポリチックDRLアルゴリズムを提案する。 学習効率を向上し,拡張性のある並列性を実現するために,FSI環境の相互作用とポリシ/バリューネットワーク最適化を完全に分離する,革新的な非同期並列トレーニング(APT)戦略を提案する。 その結果, パラメトリックグリッド探索により同定された最適正弦波作動関数と比較して, フィン線作動制御の最適複素ポリシの発見に成功し, 脈動特性が向上した。 また, 非線形力学制御の数値実験において, 従来のDRLトレーニング戦略と総合的に比較して, APTアプローチの有効性と有効性を示す。

Fish fin rays constitute a sophisticated control system for ray-finned fish, facilitating versatile locomotion within complex fluid environments. Despite extensive research on the kinematics and hydrodynamics of fish locomotion, the intricate control strategies in fin-ray actuation remain largely unexplored. While deep reinforcement learning (DRL) has demonstrated potential in managing complex nonlinear dynamics; its trial-and-error nature limits its application to problems involving computationally demanding environmental interactions. This study introduces a cutting-edge off-policy DRL algorithm, interacting with a fluid-structure interaction (FSI) environment to acquire intricate fin-ray control strategies tailored for various propulsive performance objectives. To enhance training efficiency and enable scalable parallelism, an innovative asynchronous parallel training (APT) strategy is proposed, which fully decouples FSI environment interactions and policy/value network optimization. The results demonstrated the success of the proposed method in discovering optimal complex policies for fin-ray actuation control, resulting in a superior propulsive performance compared to the optimal sinusoidal actuation function identified through a parametric grid search. The merit and effectiveness of the APT approach are also showcased through comprehensive comparison with conventional DRL training strategies in numerical experiments of controlling nonlinear dynamics.
翻訳日:2024-01-23 16:54:46 公開日:2024-01-21
# 教師なし表現学習のための拡散時間探索

Exploring Diffusion Time-steps for Unsupervised Representation Learning ( http://arxiv.org/abs/2401.11430v1 )

ライセンス: Link先を確認
Zhongqi Yue, Jiankun Wang, Qianru Sun, Lei Ji, Eric I-Chao Chang, Hanwang Zhang(参考訳) 表現学習は、データを忠実に生成する隠れたモジュール属性を見つけることに関するものです。 モジュラー属性の教師なし学習における拡散確率モデル(DM)の適用可能性について検討する。 我々は拡散時間ステップと隠れた属性を結びつける理論的枠組みを構築し、教師なし学習の効果的な帰納的バイアスとなる。 具体的には、前方拡散過程は、各時点のサンプルにガウスノイズを漸進的に付加し、例えば、テクスチャなどのきめ細かい属性がノイズを減らして失われる(例えば、早期の時間ステップ)のに対し、形状などの粗い特性はノイズを増す(例えば、後期の時間ステップ)ことで失われる。 モジュール属性を分解するために、各時間ステップtにおいて、新たに失われた属性を補償するt固有の特徴を学習し、その累積的属性集合に対応する1,...,t固有の特徴の集合を、時間ステップtにおける予め訓練されたdmの再構成エラーを補うように訓練する。 CelebA、FFHQ、Bedroomのデータセットでは、学習された機能は属性分類を大幅に改善し、2つの画像間で1つの特定の属性のみを補間し、不整合品質を検証するという、忠実な反ファクト生成を可能にする。 コードはhttps://github.com/yue-zhongqi/ditiにある。

Representation learning is all about discovering the hidden modular attributes that generate the data faithfully. We explore the potential of Denoising Diffusion Probabilistic Model (DM) in unsupervised learning of the modular attributes. We build a theoretical framework that connects the diffusion time-steps and the hidden attributes, which serves as an effective inductive bias for unsupervised learning. Specifically, the forward diffusion process incrementally adds Gaussian noise to samples at each time-step, which essentially collapses different samples into similar ones by losing attributes, e.g., fine-grained attributes such as texture are lost with less noise added (i.e., early time-steps), while coarse-grained ones such as shape are lost by adding more noise (i.e., late time-steps). To disentangle the modular attributes, at each time-step t, we learn a t-specific feature to compensate for the newly lost attribute, and the set of all 1,...,t-specific features, corresponding to the cumulative set of lost attributes, are trained to make up for the reconstruction error of a pre-trained DM at time-step t. On CelebA, FFHQ, and Bedroom datasets, the learned feature significantly improves attribute classification and enables faithful counterfactual generation, e.g., interpolating only one specified attribute between two images, validating the disentanglement quality. Codes are in https://github.com/yue-zhongqi/diti.
翻訳日:2024-01-23 16:47:19 公開日:2024-01-21
# PlasmoData.jl - 複雑なデータをグラフとしてモデル化し分析するためのJuliaフレームワーク

PlasmoData.jl -- A Julia Framework for Modeling and Analyzing Complex Data as Graphs ( http://arxiv.org/abs/2401.11404v1 )

ライセンス: Link先を確認
David L Cole and Victor M Zavala(参考訳) 科学や工学の分野で遭遇するデータセットは複雑な形式(画像、多変量時系列、分子、ビデオ、文字列、ネットワークなど)で現れる。 graph theoryは、このようなデータセットをモデル化するための統一フレームワークを提供し、データから価値を分析、視覚化、抽出するのに役立つ強力なツールの使用を可能にする。 本稿では、グラフ理論の概念を用いて複雑なデータセットのモデリングと解析を容易にするオープンソースのJuliaフレームワークであるPlasmoData.jlを紹介する。 私たちのフレームワークの中核は、DataGraphと呼ばれる一般的なデータモデリング抽象化です。 グラフとして様々なデータオブジェクトを表現し、トポロジ、グラフ理論、機械学習(グラフニューラルネットワークなど)のツールを様々なタスクに利用できるようにするために、抽象化とソフトウェアの実装がどのように使用できるかを示す。 実際のデータセットを使用してフレームワークの汎用性を説明する。 一 トポロジカルデータ分析を用いて、グラフモデルから特徴を抽出して機械学習モデルを訓練する画像分類問題 二 異常事象を検知するためのグラフとして多変量時系列をモデル化する疾患発生問題 三 グラフを用いて接続をナビゲートする方法を強調する技術経路解析の問題。 私たちの議論は、PlasmoData.jlがネイティブのJulia機能を活用して、コンパクトな構文、スケーラブルな計算、多様なパッケージとのインターフェースを実現する方法についても強調しています。

Datasets encountered in scientific and engineering applications appear in complex formats (e.g., images, multivariate time series, molecules, video, text strings, networks). Graph theory provides a unifying framework to model such datasets and enables the use of powerful tools that can help analyze, visualize, and extract value from data. In this work, we present PlasmoData.jl, an open-source, Julia framework that uses concepts of graph theory to facilitate the modeling and analysis of complex datasets. The core of our framework is a general data modeling abstraction, which we call a DataGraph. We show how the abstraction and software implementation can be used to represent diverse data objects as graphs and to enable the use of tools from topology, graph theory, and machine learning (e.g., graph neural networks) to conduct a variety of tasks. We illustrate the versatility of the framework by using real datasets: i) an image classification problem using topological data analysis to extract features from the graph model to train machine learning models; ii) a disease outbreak problem where we model multivariate time series as graphs to detect abnormal events; and iii) a technology pathway analysis problem where we highlight how we can use graphs to navigate connectivity. Our discussion also highlights how PlasmoData.jl leverages native Julia capabilities to enable compact syntax, scalable computations, and interfaces with diverse packages.
翻訳日:2024-01-23 16:46:53 公開日:2024-01-21
# MolTailor: テキストプロンプトによる特定のタスクへの化学分子表現の調整

MolTailor: Tailoring Chemical Molecular Representation to Specific Tasks via Text Prompts ( http://arxiv.org/abs/2401.11403v1 )

ライセンス: Link先を確認
Haoqiang Guo, Sendong Zhao, Haochun Wang, Yanrui Du, Bing Qin(参考訳) 現在、深層学習は薬物発見に広く使われており、大幅な加速とコスト削減を提供している。 最も基本的なビルディングブロックとして、分子表現は様々な下流の応用を可能にするために分子特性を予測するために不可欠である。 既存のほとんどの手法は、より良い表現を学ぶためにより多くの情報を組み込もうとしている。 しかし、すべての機能が特定のタスクに等しく重要であるわけではない。 これはトレーニング効率と予測精度を損なう可能性がある。 そこで本研究では,言語モデルをエージェントとして扱い,分子前訓練モデルを知識ベースとして扱う新しいアプローチを提案する。 このエージェントは、仕立て屋がクライアントの服をカスタマイズするように、タスクの自然言語記述を理解することによって、分子表現におけるタスク関連の特徴を強調する。 したがって、このアプローチをmoltailorと呼びます。 評価は、分子表現学習における妥当性を高める効果を検証し、基数よりもMomolTailorの優れた性能を示す。 これは、既存の強力な分子表現法の能力をうまく活用し、解き放つための言語モデル誘導最適化の可能性を示している。 私たちのコードと付録はhttps://github.com/scir-hi/moltailorで閲覧できます。

Deep learning is now widely used in drug discovery, providing significant acceleration and cost reduction. As the most fundamental building block, molecular representation is essential for predicting molecular properties to enable various downstream applications. Most existing methods attempt to incorporate more information to learn better representations. However, not all features are equally important for a specific task. Ignoring this would potentially compromise the training efficiency and predictive accuracy. To address this issue, we propose a novel approach, which treats language models as an agent and molecular pretraining models as a knowledge base. The agent accentuates task-relevant features in the molecular representation by understanding the natural language description of the task, just as a tailor customizes clothes for clients. Thus, we call this approach MolTailor. Evaluations demonstrate MolTailor's superior performance over baselines, validating the efficacy of enhancing relevance for molecular representation learning. This illustrates the potential of language model guided optimization to better exploit and unleash the capabilities of existing powerful molecular representation methods. Our codes and appendix are available at https://github.com/SCIR-HI/MolTailor.
翻訳日:2024-01-23 16:46:27 公開日:2024-01-21
# クラスターアルゴリズムによるスケール不変データ前処理による密度変動クラスタの検出

Enabling clustering algorithms to detect clusters of varying densities through scale-invariant data preprocessing ( http://arxiv.org/abs/2401.11402v1 )

ライセンス: Link先を確認
Sunil Aryal, Jonathan R. Wells, Arbind Agrahari Baniya, KC Santosh(参考訳) 本稿では,"ARES(Average Rank over an Ensemble of Sub-Samples)"と呼ばれる,ランク変換の変種を用いた事前処理により,クラスタリングアルゴリズムがデータ表現に頑健になり,様々な密度クラスタを検出できることを示す。 最も広く使われている3つのクラスタリングアルゴリズム、すなわちkmeans、dbscan、dp(density peak)を用いて、幅広い実世界のデータセットを横断し、アレス変換後のクラスタリングがより良く一貫性のある結果を生み出すことを示した。

In this paper, we show that preprocessing data using a variant of rank transformation called 'Average Rank over an Ensemble of Sub-samples (ARES)' makes clustering algorithms robust to data representation and enable them to detect varying density clusters. Our empirical results, obtained using three most widely used clustering algorithms-namely KMeans, DBSCAN, and DP (Density Peak)-across a wide range of real-world datasets, show that clustering after ARES transformation produces better and more consistent results.
翻訳日:2024-01-23 16:46:11 公開日:2024-01-21
# LLMRA:マルチモーダル大言語モデルに基づく復元支援

LLMRA: Multi-modal Large Language Model based Restoration Assistant ( http://arxiv.org/abs/2401.11401v1 )

ライセンス: Link先を確認
Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang(参考訳) MLLM(Multi-modal Large Language Models)は、幅広い知識と強力な知覚と生成能力により、様々なタスクに重大な影響を与える。 しかし、MLLMを低レベル視覚タスクに適用するためのオープンな研究課題として依然として残っている。 本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワーク,すなわちLLMRA(Multi-modal Large Language Model based Restoration Assistant)を提案する。 我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。 事前学習されたマルチモーダル大言語モデルと視覚言語モデルを用いることで,テキスト記述を生成し,分解画像の分解情報を含むコンテキスト埋め込みとしてエンコードする。 提案したContext Enhance Module (CEM) とDegradation Context based Transformer Network (DC-former) を通じて、これらのコンテキストを復元ネットワークに統合し、より正確で調整可能な画像復元に寄与する。 ユーザとの対話に基づいて,MLLMによる画像劣化の先行情報を活用し,入力された低画質画像と復元された高画質画像の低レベル属性記述を同時に提供する。 画像復元作業におけるLLMRAの優れた性能を示す大規模な実験を行った。

Multi-modal Large Language Models (MLLMs) have a significant impact on various tasks, due to their extensive knowledge and powerful perception and generation capabilities. However, it still remains an open research problem on applying MLLMs to low-level vision tasks. In this paper, we present a simple MLLM-based Image Restoration framework to address this gap, namely Multi-modal Large Language Model based Restoration Assistant (LLMRA). We exploit the impressive capabilities of MLLMs to obtain the degradation information for universal image restoration. By employing a pretrained multi-modal large language model and a vision language model, we generate text descriptions and encode them as context embedding with degradation information for the degraded image. Through the proposed Context Enhance Module (CEM) and Degradation Context based Transformer Network (DC-former), we integrate these context embedding into the restoration network, contributing to more accurate and adjustable image restoration. Based on the dialogue with the users, our method leverages image degradation priors from MLLMs, providing low-level attributes descriptions of the input low-quality images and the restored high-quality images simultaneously. Extensive experiments demonstrate the superior performance of our LLMRA in universal image restoration tasks.
翻訳日:2024-01-23 16:45:59 公開日:2024-01-21
# 校正されたコントラスト表現を用いた視覚模倣学習

Visual Imitation Learning with Calibrated Contrastive Representation ( http://arxiv.org/abs/2401.11396v1 )

ライセンス: Link先を確認
Yunke Wang, Linwei Tao, Bo Du, Yutian Lin, Chang Xu(参考訳) AIL(Adversarial Imitation Learning)は、エージェントが低次元の状態と行動で専門家の行動を再現することを可能にする。 しかし、視覚状態を扱う際の課題は、低次元の受容的特徴と比較して区別がつかないためである。 既存の手法では複雑なネットワークアーキテクチャを採用するか、あるいは表現と意思決定のプロセスを分離するが、デモの中で貴重なエージェント内情報を見落としている。 そこで本稿では,visual ailフレームワークに校正されたコントラスト代表学習を組み込むことにより,簡便で効果的な解法を提案する。 具体的には、教師なしのコントラスト学習と教師なしのコントラスト学習を組み合わせて、視覚状態から貴重な特徴を抽出するビジュアルailの画像エンコーダを提案する。 改良剤が品質の異なるデモをしばしば生成するという事実に基づいて,各エージェントのデモを混合サンプルとして扱うことにより,コントラスト損失を校正する。 コントラスト学習の導入は、アーキテクチャの変更や重要な計算コストを伴わずに、ailフレームワークと共同で最適化することができる。 DMControl Suiteの実験結果から,提案手法はサンプル効率が良く,他の比較手法よりも優れていることが示された。

Adversarial Imitation Learning (AIL) allows the agent to reproduce expert behavior with low-dimensional states and actions. However, challenges arise in handling visual states due to their less distinguishable representation compared to low-dimensional proprioceptive features. While existing methods resort to adopt complex network architectures or separate the process of learning representation and decision-making, they overlook valuable intra-agent information within demonstrations. To address this problem, this paper proposes a simple and effective solution by incorporating calibrated contrastive representative learning into visual AIL framework. Specifically, we present an image encoder in visual AIL, utilizing a combination of unsupervised and supervised contrastive learning to extract valuable features from visual states. Based on the fact that the improved agent often produces demonstrations of varying quality, we propose to calibrate the contrastive loss by treating each agent demonstrations as a mixed sample. The incorporation of contrastive learning can be jointly optimized with the AIL framework, without modifying the architecture or incurring significant computational costs. Experimental results on DMControl Suite demonstrate our proposed method is sample efficient and can outperform other compared methods from different aspects.
翻訳日:2024-01-23 16:45:37 公開日:2024-01-21
# UniM-OV3D:細粒度特徴表現を用いた一様オープンボキャブラリ3次元シーン理解

UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation ( http://arxiv.org/abs/2401.11395v1 )

ライセンス: Link先を確認
Qingdong He, Jinlong Peng, Zhengkai Jiang, Kai Wu, Xiaozhong Ji, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Mingang Chen, Yunsheng Wu(参考訳) 3d open-vocabulary scene understandingは、ベースラベル空間を超えて任意の新しいカテゴリを認識することを目的としている。 しかし、既存の作品では、3dドメインで利用可能な全てのモーダル情報を十分に活用できないだけでなく、各モダリティの特徴を表現するのに十分な粒度を欠いている。 本稿では,ポイント・クラウドを画像,言語,奥行きと整合させる,統合型マルチモーダル3次元オープンボキャブラリー・シーン理解ネットワーク,unim-ov3dを提案する。 ポイントクラウドのグローバルおよびローカルな機能をよりよく統合するために、包括的な細かな特徴表現を学ぶ階層的ポイントクラウド特徴抽出モジュールを設計します。 さらに,キャプションから粗視から細かなポイントセマンティクス表現の学習を容易にするために,3次元シーンの様々な視点における幾何学的制約を活かした階層的3次元キャプションペアの利用を提案する。 ScanNet, ScanNet200, S3IDS, nuScenes などの屋内および屋外のベンチマークにおいて, 最先端の性能を実現するオープン語彙セマンティックとインスタンスセマンティクスにおける本手法の有効性と優位性を示す。 コードはhttps://github.com/hithqd/UniM-OV3Dで入手できる。

3D open-vocabulary scene understanding aims to recognize arbitrary novel categories beyond the base label space. However, existing works not only fail to fully utilize all the available modal information in the 3D domain but also lack sufficient granularity in representing the features of each modality. In this paper, we propose a unified multimodal 3D open-vocabulary scene understanding network, namely UniM-OV3D, which aligns point clouds with image, language and depth. To better integrate global and local features of the point clouds, we design a hierarchical point cloud feature extraction module that learns comprehensive fine-grained feature representations. Further, to facilitate the learning of coarse-to-fine point-semantic representations from captions, we propose the utilization of hierarchical 3D caption pairs, capitalizing on geometric constraints across various viewpoints of 3D scenes. Extensive experimental results demonstrate the effectiveness and superiority of our method in open-vocabulary semantic and instance segmentation, which achieves state-of-the-art performance on both indoor and outdoor benchmarks such as ScanNet, ScanNet200, S3IDS and nuScenes. Code is available at https://github.com/hithqd/UniM-OV3D.
翻訳日:2024-01-23 16:45:16 公開日:2024-01-21
# 因果推論を用いた因果生成記述器: Morpho-MNIST データセットのケーススタディ

Causal Generative Explainers using Counterfactual Inference: A Case Study on the Morpho-MNIST Dataset ( http://arxiv.org/abs/2401.11394v1 )

ライセンス: Link先を確認
Will Taylor-Melanson and Zahra Sadeghi and Stan Matwin(参考訳) 本稿では,画像分類器の解釈ツールとして因果生成学習を活用することを提案する。 具体的には、生成学習を通して視覚的特徴(ピクセル)と因果要因の影響を研究するために、生成的反事実推論手法を提案する。 この目的のために,我々はまず,カウンターファクト推論によって因果属性の値を変化させ,これら異なる属性値を持つカウンターファクト画像の形状的および対比的説明を演算することにより,分類器の決定において最も影響力のある画素を明らかにする。 次に,因果生成モデルの生成子を用いてモンテカルロ機構を確立し,シャープリー説明器を用いて因果データセットの人間解釈可能な属性に対して,分類器がデータセットのイメージに対してのみ訓練された場合の特徴量を生成する。 最後に, 分類器の相反的説明を相反的推論によって生成する最適化手法を提案し, 微分可能および任意の分類器に対して直接的アプローチを提案する。 我々はMorpho-MNIST因果的データセットを事例として,本提案手法を応用した。 我々は,OmnixAIオープンソースツールキットの視覚的説明手法を用いて,提案手法との比較を行った。 提案手法は, 対実的説明の解釈可能性を測定するために定量的な指標を用いることで, 対実的説明の手法がOmnixAIの手法よりも解釈可能な説明を提供することがわかった。 このことから,本手法は因果的データセットの解釈に極めて適していると考えられる。

In this paper, we propose leveraging causal generative learning as an interpretable tool for explaining image classifiers. Specifically, we present a generative counterfactual inference approach to study the influence of visual features (i.e., pixels) as well as causal factors through generative learning. To this end, we first uncover the most influential pixels on a classifier's decision by varying the value of a causal attribute via counterfactual inference and computing both Shapely and contrastive explanations for counterfactual images with these different attribute values. We then establish a Monte-Carlo mechanism using the generator of a causal generative model in order to adapt Shapley explainers to produce feature importances for the human-interpretable attributes of a causal dataset in the case where a classifier has been trained exclusively on the images of the dataset. Finally, we present optimization methods for creating counterfactual explanations of classifiers by means of counterfactual inference, proposing straightforward approaches for both differentiable and arbitrary classifiers. We exploit the Morpho-MNIST causal dataset as a case study for exploring our proposed methods for generating counterfacutl explantions. We employ visual explanation methods from OmnixAI open source toolkit to compare them with our proposed methods. By employing quantitative metrics to measure the interpretability of counterfactual explanations, we find that our proposed methods of counterfactual explanation offer more interpretable explanations compared to those generated from OmnixAI. This finding suggests that our methods are well-suited for generating highly interpretable counterfactual explanations on causal datasets.
翻訳日:2024-01-23 16:44:51 公開日:2024-01-21
# MedLM:医療質問応答システムのための言語モデルの検討

MedLM: Exploring Language Models for Medical Question Answering Systems ( http://arxiv.org/abs/2401.11389v1 )

ライセンス: Link先を確認
Niraj Yagnik, Jay Jhaveri, Vivek Sharma, Gabriel Pila, Asma Ben, Jingbo Shang(参考訳) オンライン医療文献が急速に拡大する中で、情報収集と要約のための自動化システムが、医療専門家や患者にとってますます重要になっている。 高度な生成能力を持つ大規模言語モデル(llm)は、様々なnlpタスクにおいて有望であり、医療領域、特にクローズドブック生成qnaにおいてその潜在性は重要である。 しかしながら、メディカルq&aのようなドメイン固有のタスクにおけるこれらのモデルのパフォーマンスはほとんど未定である。 本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することで,このギャップを埋めることである。 本研究の目的は、細調整ドメイン固有のLMの有効性を評価し、異なる言語モデル群の性能を比較することである。 本研究は,これらのモデルの信頼性,比較性能,有効性について,医学的q&aの文脈で重要な疑問を提起する。 この発見は、医療分野の特定の用途に異なるlmsの適合性に関する貴重な洞察を提供するだろう。

In the face of rapidly expanding online medical literature, automated systems for aggregating and summarizing information are becoming increasingly crucial for healthcare professionals and patients. Large Language Models (LLMs), with their advanced generative capabilities, have shown promise in various NLP tasks, and their potential in the healthcare domain, particularly for Closed-Book Generative QnA, is significant. However, the performance of these models in domain-specific tasks such as medical Q&A remains largely unexplored. This study aims to fill this gap by comparing the performance of general and medical-specific distilled LMs for medical Q&A. We aim to evaluate the effectiveness of fine-tuning domain-specific LMs and compare the performance of different families of Language Models. The study will address critical questions about these models' reliability, comparative performance, and effectiveness in the context of medical Q&A. The findings will provide valuable insights into the suitability of different LMs for specific applications in the medical domain.
翻訳日:2024-01-23 16:44:21 公開日:2024-01-21
# 大規模言語モデルを用いた中国語ASRとNER

Using Large Language Model for End-to-End Chinese ASR and NER ( http://arxiv.org/abs/2401.11382v1 )

ライセンス: Link先を確認
Yuang Li, Jiawei Yu, Yanqing Zhao, Min Zhang, Mengxin Ren, Xiaofeng Zhao, Xiaosong Qiao, Chang Su, Miaomiao Ma, Hao Yang(参考訳) 音声トークンをテキストトークンと同じ機能空間にマッピングすることは、音声モダリティをデコーダのみの大型言語モデル(llm)に統合するパラダイムとなっている。 別のアプローチは、クロスアテンションを通じて音声機能を組み込んだエンコーダ・デコーダアーキテクチャを使用することである。 しかし、このアプローチは文献にはあまり注目されていない。 そこで本研究では,whisperエンコーダとchatglm3を接続し,中国語自動音声認識(asr)とner(name entity recognition)タスクを用いて,これら2つのアプローチを詳細に比較する。 F1スコアのような従来の指標だけでなく、ASR-NERエラーの詳細な分類によって評価する。 私たちの実験では、エンコーダ-デコーダアーキテクチャが短いコンテキストでデコーダのみのアーキテクチャを上回っているのに対して、デコーダのみのアーキテクチャはllmのすべてのレイヤをフル活用するため、長いコンテキストからメリットがあります。 LLMを用いることで,エンティティの省略誤差を大幅に低減し,コンバータベースラインと比較してエンティティASRの精度を向上した。 さらに,long-form asr転写を推定し,nerラベルを予測したchain-of-thought (cot) nerを用いて,aishell-nerテストセットにおけるsof-the-art (sota) f1スコア0.805を得た。

Mapping speech tokens to the same feature space as text tokens has become the paradigm for the integration of speech modality into decoder-only large language models (LLMs). An alternative approach is to use an encoder-decoder architecture that incorporates speech features through cross-attention. This approach, however, has received less attention in the literature. In this work, we connect the Whisper encoder with ChatGLM3 and provide in-depth comparisons of these two approaches using Chinese automatic speech recognition (ASR) and name entity recognition (NER) tasks. We evaluate them not only by conventional metrics like the F1 score but also by a novel fine-grained taxonomy of ASR-NER errors. Our experiments reveal that encoder-decoder architecture outperforms decoder-only architecture with a short context, while decoder-only architecture benefits from a long context as it fully exploits all layers of the LLM. By using LLM, we significantly reduced the entity omission errors and improved the entity ASR accuracy compared to the Conformer baseline. Additionally, we obtained a state-of-the-art (SOTA) F1 score of 0.805 on the AISHELL-NER test set by using chain-of-thought (CoT) NER which first infers long-form ASR transcriptions and then predicts NER labels.
翻訳日:2024-01-23 16:44:06 公開日:2024-01-21
# moma: オフライン強化学習のためのモデルベースミラーアセンシング

MoMA: Model-based Mirror Ascent for Offline Reinforcement Learning ( http://arxiv.org/abs/2401.11380v1 )

ライセンス: Link先を確認
Mao Hong, Zhiyue Zhang, Yue Wu, Yanxun Xu(参考訳) モデルベースオフライン強化学習法(RL)は, サンプル効率と一般化性により, 多くの意思決定問題において最先端の性能を達成した。 これらの進歩にもかかわらず、既存のモデルベースのオフラインrlアプローチは、実用的なアルゴリズムを開発することなく理論的研究にフォーカスするか、制限されたパラメトリックポリシー空間に依存している。 この制限に対処するため,オフラインデータの部分的カバレッジ下での一般関数近似を用いたモデルベースのミラー上昇アルゴリズムであるMoMAを開発した。 MoMAは、制限のない政策クラスを採用することで、既存の文学と差別化している。 各イテレーションにおいて、MoMAは、ポリシー評価ステップにおける遷移モデルの信頼セット内の最小化手順による値関数を保守的に推定し、ポリシー改善ステップで一般的に使用されるパラメトリックポリシークラスの代わりに、一般関数近似でポリシーを更新する。 いくつかの軽微な仮定の下で、返却された方針の最適値の上限を証明することによって、MoMAの理論的保証を確立する。 また,実際に実装可能な近似型のアルゴリズムも提供する。 MoMAの有効性は数値的な研究によって実証されている。

Model-based offline reinforcement learning methods (RL) have achieved state-of-the-art performance in many decision-making problems thanks to their sample efficiency and generalizability. Despite these advancements, existing model-based offline RL approaches either focus on theoretical studies without developing practical algorithms or rely on a restricted parametric policy space, thus not fully leveraging the advantages of an unrestricted policy space inherent to model-based methods. To address this limitation, we develop MoMA, a model-based mirror ascent algorithm with general function approximations under partial coverage of offline data. MoMA distinguishes itself from existing literature by employing an unrestricted policy class. In each iteration, MoMA conservatively estimates the value function by a minimization procedure within a confidence set of transition models in the policy evaluation step, then updates the policy with general function approximations instead of commonly-used parametric policy classes in the policy improvement step. Under some mild assumptions, we establish theoretical guarantees of MoMA by proving an upper bound on the suboptimality of the returned policy. We also provide a practically implementable, approximate version of the algorithm. The effectiveness of MoMA is demonstrated via numerical studies.
翻訳日:2024-01-23 16:43:23 公開日:2024-01-21
# AUV形成制御と障害物回避のためのマルチエージェント逆対話型セルフイミテーション学習

Multi-Agent Generative Adversarial Interactive Self-Imitation Learning for AUV Formation Control and Obstacle Avoidance ( http://arxiv.org/abs/2401.11378v1 )

ライセンス: Link先を確認
Zheng Fang, Tianhao Chen, Dong Jiang, Zheng Zhang and Guangliang Li(参考訳) 複数の自律型水中車両(マルチAUV)は、単一のAUVが完成できないタスクを協調的に達成することができる。 近年,マルチAUV制御のためにマルチエージェント強化学習が導入されている。 しかしながら、マルチauv制御の様々なタスクに対する効率的な報酬関数の設計は困難または非現実的である。 MRAIL(Multi-agent generative adversarial mimicion learning)は、複数のAUVが事前に定義された報酬関数ではなく、専門家によるデモンストレーションから学ぶことができるが、最適なデモンストレーションを必要とし、与えられた専門家によるデモを超えないという欠点がある。 本稿では,AUVが提供した準最適実験を,人間のトレーナーが選択した自己生成良軌道に徐々に置き換えることによって,ポリシーの学習を容易にするマルチエージェント生成型対人自己アニメーション学習(MAGAISIL)を提案する。 実験室のAUVシミュレータを用いたGazeboプラットフォーム上でのマルチAUV生成制御および障害物回避タスクによる実験結果から,MAGAISILを用いてトレーニングしたAUVが,提案した準最適専門家による実験を超越し,MAGAILよりも近い性能に到達できることが示唆された。 さらに,MAGAISILを介して訓練されたAUVsのポリシーは,多種多様なタスクに適応し,かつ最適なデモンストレーションからMAGAILを学習できることが示唆された。

Multiple autonomous underwater vehicles (multi-AUV) can cooperatively accomplish tasks that a single AUV cannot complete. Recently, multi-agent reinforcement learning has been introduced to control of multi-AUV. However, designing efficient reward functions for various tasks of multi-AUV control is difficult or even impractical. Multi-agent generative adversarial imitation learning (MAGAIL) allows multi-AUV to learn from expert demonstration instead of pre-defined reward functions, but suffers from the deficiency of requiring optimal demonstrations and not surpassing provided expert demonstrations. This paper builds upon the MAGAIL algorithm by proposing multi-agent generative adversarial interactive self-imitation learning (MAGAISIL), which can facilitate AUVs to learn policies by gradually replacing the provided sub-optimal demonstrations with self-generated good trajectories selected by a human trainer. Our experimental results in a multi-AUV formation control and obstacle avoidance task on the Gazebo platform with AUV simulator of our lab show that AUVs trained via MAGAISIL can surpass the provided sub-optimal expert demonstrations and reach a performance close to or even better than MAGAIL with optimal demonstrations. Further results indicate that AUVs' policies trained via MAGAISIL can adapt to complex and different tasks as well as MAGAIL learning from optimal demonstrations.
翻訳日:2024-01-23 16:43:02 公開日:2024-01-21
# 階層エンコーダとしての言語モデル

Language Models as Hierarchy Encoders ( http://arxiv.org/abs/2401.11374v1 )

ライセンス: Link先を確認
Yuan He, Zhangdie Yuan, Jiaoyan Chen, Ian Horrocks(参考訳) 言語で潜在する階層構造を解釈することは、現在の言語モデル(LM)の重要な制限である。 これまでの研究では、これらの階層を暗黙的に活用してlmsを強化するが、明示的なエンコーディングのアプローチはまだ検討されていない。 そこで本研究では, 階層変換エンコーダ (hits) としてトランスフォーマエンコーダをベースとするlmsを再訓練する新しい手法を提案する。 本手法では,poincar\'eボール内の予め訓練されたlmsの出力埋め込み空間を,埋め込み次元に適合する曲率で配置し,さらに双曲型クラスターと遠心損失に対して再訓練する。 これらの損失は、関連エンティティ(テキストとして入力される)を効果的にクラスタリングし、階層的にそれらを編成するように設計されている。 我々は,Hitsを事前学習および微調整のLMに対して評価し,過渡的推論のシミュレーション,仮定の予測,階層間の知識の伝達に焦点をあてた。 その結果、Hitsはこれらのタスクにおいて、事前学習と微調整の両方のLMより一貫して優れており、再学習された階層エンコーダの有効性と転送性を示している。

Interpreting hierarchical structures latent in language is a key limitation of current language models (LMs). While previous research has implicitly leveraged these hierarchies to enhance LMs, approaches for their explicit encoding are yet to be explored. To address this, we introduce a novel approach to re-train transformer encoder-based LMs as Hierarchy Transformer encoders (HiTs), harnessing the expansive nature of hyperbolic space. Our method situates the output embedding space of pre-trained LMs within a Poincar\'e ball with a curvature that adapts to the embedding dimension, followed by re-training on hyperbolic cluster and centripetal losses. These losses are designed to effectively cluster related entities (input as texts) and organise them hierarchically. We evaluate HiTs against pre-trained and fine-tuned LMs, focusing on their capabilities in simulating transitive inference, predicting subsumptions, and transferring knowledge across hierarchies. The results demonstrate that HiTs consistently outperform both pre-trained and fine-tuned LMs in these tasks, underscoring the effectiveness and transferability of our re-trained hierarchy encoders.
翻訳日:2024-01-23 16:42:35 公開日:2024-01-21
# 逆行性干し草スタックにおける針の発見 : 分布歪みが最小限のエッジケースを探索するためのパラフレージングアプローチ

Finding a Needle in the Adversarial Haystack: A Targeted Paraphrasing Approach For Uncovering Edge Cases with Minimal Distribution Distortion ( http://arxiv.org/abs/2401.11373v1 )

ライセンス: Link先を確認
Aly M. Kassem, Sherif Saad(参考訳) NLPディープラーニングモデルに対する敵対的攻撃は重要な懸念事項である。 特に、敵対的なサンプルは、小さな入力変化に対するモデルの感度を利用する。 これらの変化は入力サンプルのセマンティクスには重要でないように見えるが、モデルの性能は著しく低下する。 本稿では,モデルの性能を最も向上させる可能性のある課題サンプルを生成するためのポリシを自動的に学習する手法である,rl(tprl)による対象パラフレージングを提案する。 TPRLは、言語モデルであるFLAN T5をジェネレータとして利用し、近似ポリシー勾配を用いて自己学習ポリシーを用いて、敵の例を自動的に生成する。 TPRLの報酬は、分類器で誘導される混乱に基づいており、相互インプリケーションスコアを通じて元のテキストの意味を保存する。 そこで本研究では,TPRLによる自然敵攻撃の発見とモデル性能の向上を,自動評価と人的評価による4つのNLP分類タスクの広範な実験により実証し,評価した。 TPRLは強力なベースラインを上回り、分類器とデータセットをまたいだ一般化可能性を示し、言語モデリングと強化学習の強みを組み合わせて、多種多様な影響力のある敵の例を生成する。

Adversarial attacks against NLP Deep Learning models are a significant concern. In particular, adversarial samples exploit the model's sensitivity to small input changes. While these changes appear insignificant on the semantics of the input sample, they result in significant decay in model performance. In this paper, we propose Targeted Paraphrasing via RL (TPRL), an approach to automatically learn a policy to generate challenging samples that most likely improve the model's performance. TPRL leverages FLAN T5, a language model, as a generator and employs a self learned policy using a proximal policy gradient to generate the adversarial examples automatically. TPRL's reward is based on the confusion induced in the classifier, preserving the original text meaning through a Mutual Implication score. We demonstrate and evaluate TPRL's effectiveness in discovering natural adversarial attacks and improving model performance through extensive experiments on four diverse NLP classification tasks via Automatic and Human evaluation. TPRL outperforms strong baselines, exhibits generalizability across classifiers and datasets, and combines the strengths of language modeling and reinforcement learning to generate diverse and influential adversarial examples.
翻訳日:2024-01-23 16:42:09 公開日:2024-01-21
# ソフトスネークロボットのバックステップ体験リプレイとモデルフリー強化学習への応用

Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot ( http://arxiv.org/abs/2401.11372v1 )

ライセンス: Link先を確認
Xinda Qi, Dong Chen, Zhaojian Li, Xiaobo Tan(参考訳) 本稿では,任意のオフポリシー強化学習(rl)アルゴリズムと互換性のある新しい手法であるback-stepping experience replay (ber)を提案する。 BERは、近似可逆性を持つシステムの学習効率を高め、複雑な報酬形成の必要性を減らすことを目的としている。 この手法は、バックステッピング遷移を用いて逆軌道を構築し、ランダムまたは固定された目標に達する。 双方向のアプローチとして解釈可能なberは、学習中のリプレイ体験の蒸留によるバックステップ遷移の不正確さに対処する。 ソフトヘビロボットの複雑な性質と環境との複雑な相互作用を考慮し,体と地面の異方性摩擦によりセルペンチン運動を可能としたソフトヘビロボットの移動・ナビゲーションのためのモデルフリーRLアプローチにBERを適用した。 さらに、BERアルゴリズムの有効性と効率を評価するために、ロボットが学習を成功させ(100%の成功率を得る)、ランダムな目標に達し、最高のベースラインアプローチよりも平均速度が48%速くなるように、動的シミュレータを開発した。

In this paper, we propose a novel technique, Back-stepping Experience Replay (BER), that is compatible with arbitrary off-policy reinforcement learning (RL) algorithms. BER aims to enhance learning efficiency in systems with approximate reversibility, reducing the need for complex reward shaping. The method constructs reversed trajectories using back-stepping transitions to reach random or fixed targets. Interpretable as a bi-directional approach, BER addresses inaccuracies in back-stepping transitions through a distillation of the replay experience during learning. Given the intricate nature of soft robots and their complex interactions with environments, we present an application of BER in a model-free RL approach for the locomotion and navigation of a soft snake robot, which is capable of serpentine motion enabled by anisotropic friction between the body and ground. In addition, a dynamic simulator is developed to assess the effectiveness and efficiency of the BER algorithm, in which the robot demonstrates successful learning (reaching a 100% success rate) and adeptly reaches random targets, achieving an average speed 48% faster than that of the best baseline approach.
翻訳日:2024-01-23 16:41:47 公開日:2024-01-21
# 信頼性肺がん検出のためのモデル校正に向けたタスク特異的正規化損失

Task-specific regularization loss towards model calibration for reliable lung cancer detection ( http://arxiv.org/abs/2401.11464v1 )

ライセンス: Link先を確認
Mehar Prateek Kalra, Mansi Singhal, Rohan Raju Dhanakashirur(参考訳) 肺がんは、世界中のがん関連死亡の原因の1つである。 早期発見と治療は生存の可能性を高める。 伝統的にCTスキャンは、最も重要な肺感染症情報を抽出し、がんを診断するために用いられてきた。 このプロセスは専門家の放射線技師によって手作業で実行される。 インドのような国における放射線技師と人口の比率の不均衡は、労働のプレッシャーを著しく高めるため、いくつかの責任を自動化する必要が生じる。 現代のディープニューラルネットワークの過度なミスに対する傾向は、がんを検出するためにの使用を制限する。 本稿では,ニューラルネットワークを校正し,自信過剰な誤りのリスクを低減するタスク固有損失関数を提案する。 我々は,提案したタスク固有損失関数と合わせて,信頼性と正確性の多クラス差分(MDCA)損失を用いてこれを実現する。 また,列車時キャリブレーションモデル上で温度スケーリングを行うことにより,ポストホックキャリブレーションも統合する。 予測校正誤差(ECE)は5.98%改善し,最大校正誤差(MCE)は17.9%改善した。

Lung cancer is one of the significant causes of cancer-related deaths globally. Early detection and treatment improve the chances of survival. Traditionally CT scans have been used to extract the most significant lung infection information and diagnose cancer. This process is carried out manually by an expert radiologist. The imbalance in the radiologists-to-population ratio in a country like India implies significant work pressure on them and thus raises the need to automate a few of their responsibilities. The tendency of modern-day Deep Neural networks to make overconfident mistakes limit their usage to detect cancer. In this paper, we propose a new task-specific loss function to calibrate the neural network to reduce the risk of overconfident mistakes. We use the state-of-the-art Multi-class Difference in Confidence and Accuracy (MDCA) loss in conjunction with the proposed task-specific loss function to achieve the same. We also integrate post-hoc calibration by performing temperature scaling on top of the train-time calibrated model. We demonstrate 5.98% improvement in the Expected Calibration Error (ECE) and a 17.9% improvement in Maximum Calibration Error (MCE) as compared to the best-performing SOTA algorithm.
翻訳日:2024-01-23 16:37:18 公開日:2024-01-21
# スケーラブルなロボット学習のための基礎的フロー

General Flow as Foundation Affordance for Scalable Robot Learning ( http://arxiv.org/abs/2401.11439v1 )

ライセンス: Link先を確認
Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao(参考訳) 我々は,大規模言語モデル(LLM)における大規模自己回帰予測の成功に触発されて,大規模データセットを活用可能な適切な予測対象を特定することが,効率的で普遍的な学習を実現する上で不可欠である,と信じている。 そこで本研究では,対象物に対する3dポイントの将来の軌跡を表すフローを,ロボット学習における理想的な予測対象として利用する。 スケーラブルなデータリソースを活用するために、私たちは注意をクロスエボディメントデータセットに向けます。 我々は,大規模なrgbdヒューマンビデオデータセットから直接言語条件付き予測モデルを開発した。 予測フローは,実世界のシナリオにおいて安定したゼロショットスキルの伝達が促進され,クローズドループフロー予測に基づくポリシーで手法を展開する。 そこで本手法では,18のタスクを6場面でカバーし,人間とロボットのスキル伝達において81%の成功率を達成した。 本フレームワークは,(1)拡張性: クロス・エボディメント・データリソースの活用,(2)普遍性: 剛性,調音性,軟質体を含む複数のオブジェクトカテゴリ;(3)安定的なスキル伝達: 最小の推論ドメインギャップで実行可能なガイダンスを提供する。 これにより、スケーラブルな汎用ロボット学習への新たな道が導かれる。 データ、コード、モデルの重み付けが公開される予定だ。

We address the challenge of acquiring real-world manipulation skills with a scalable framework.Inspired by the success of large-scale auto-regressive prediction in Large Language Models (LLMs), we hold the belief that identifying an appropriate prediction target capable of leveraging large-scale datasets is crucial for achieving efficient and universal learning. Therefore, we propose to utilize flow, which represents the future trajectories of 3D points on objects of interest, as an ideal prediction target in robot learning. To exploit scalable data resources, we turn our attention to cross-embodiment datasets. We develop, for the first time, a language-conditioned prediction model directly from large-scale RGBD human video datasets. Our predicted flow offers actionable geometric and physics guidance, thus facilitating stable zero-shot skill transfer in real-world scenarios.We deploy our method with a policy based on closed-loop flow prediction. Remarkably, without any additional training, our method achieves an impressive 81% success rate in human-to-robot skill transfer, covering 18 tasks in 6 scenes. Our framework features the following benefits: (1) scalability: leveraging cross-embodiment data resources; (2) universality: multiple object categories, including rigid, articulated, and soft bodies; (3) stable skill transfer: providing actionable guidance with a small inference domain-gap. These lead to a new pathway towards scalable general robot learning. Data, code, and model weights will be made publicly available.
翻訳日:2024-01-23 16:36:58 公開日:2024-01-21
# ブラックボックスのオープン:段階的政策更新によるテンポラル・コーディック強化学習

Open the Black Box: Step-based Policy Updates for Temporally-Correlated Episodic Reinforcement Learning ( http://arxiv.org/abs/2401.11437v1 )

ライセンス: Link先を確認
Ge Li, Hongyi Zhou, Dominik Roth, Serge Thilges, Fabian Otto, Rudolf Lioutikov, Gerhard Neumann(参考訳) 強化学習(RL)の最近の進歩は、認識された各状態に対するアクションを生成するステップベースの政策の学習に主に焦点を当てている。 これらの手法は、環境相互作用からのステップ情報を有効に活用するが、しばしば行動間の時間的相関を無視し、実際のハードウェアで実装するのが難しい非効率的な探索と不機嫌な軌跡をもたらす。 エピソードRL(ERL)は、アクションの相関を捉えるパラメータ空間を探索することで、これらの課題を克服しようとしている。 しかし、これらのアプローチは、通常、軌道を不透明な \emph{black box} として扱うため、データ効率を損なう。 本研究では,新たなERLアルゴリズムであるTemporally-Correlated Episodic RL (TCE)を導入し,パラメータ空間におけるスムーズかつ一貫した探索を維持しつつ,既存のERL手法の「ブラックボックス」を開放する。 TCEは、ステップベースとエピソードRLの利点を相乗的に組み合わせ、最近のERL法に匹敵する性能を達成しつつ、最先端(SoTA)ステップベースRLのようなデータ効率を維持する。

Current advancements in reinforcement learning (RL) have predominantly focused on learning step-based policies that generate actions for each perceived state. While these methods efficiently leverage step information from environmental interaction, they often ignore the temporal correlation between actions, resulting in inefficient exploration and unsmooth trajectories that are challenging to implement on real hardware. Episodic RL (ERL) seeks to overcome these challenges by exploring in parameters space that capture the correlation of actions. However, these approaches typically compromise data efficiency, as they treat trajectories as opaque \emph{black boxes}. In this work, we introduce a novel ERL algorithm, Temporally-Correlated Episodic RL (TCE), which effectively utilizes step information in episodic policy updates, opening the 'black box' in existing ERL methods while retaining the smooth and consistent exploration in parameter space. TCE synergistically combines the advantages of step-based and episodic RL, achieving comparable performance to recent ERL methods while maintaining data efficiency akin to state-of-the-art (SoTA) step-based RL.
翻訳日:2024-01-23 16:36:32 公開日:2024-01-21
# 長尾分類のための幾何学的事前特徴表現学習

Geometric Prior Guided Feature Representation Learning for Long-Tailed Classification ( http://arxiv.org/abs/2401.11436v1 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu, Puhua Chen(参考訳) 実世界のデータはロングテールであり、テールサンプルの欠如はモデルの一般化能力に重大な制限をもたらす。 クラス再バランスの多くのアプローチは中程度のクラス不均衡問題に対してうまく機能するが、いくつかのテールサンプルからの観測された分布が真の分布を適切に表現していない場合、テールクラスが真の分布を回復するのに役立つ追加の知識を導入する必要がある。 本研究では,よく表現されたヘッドクラスの特徴分布の幾何学的情報を活用し,モデルを用いてテールクラスの基盤分布を学習することを提案する。 具体的には,まず特徴分布の幾何学と幾何学間の類似性測度を体系的に定義し,異なる特徴分布の幾何学の関係に関する4つの現象を発見した。 次に,4つの現象に基づき,ヘッドクラス特徴分布の幾何を用いてテール特徴を摂動させる特徴不確かさ表現を提案する。 混乱した機能をテイルクラスの下位の分散を可能な限りカバーすることを目的としているため、テストドメインにおけるモデルの一般化性能が向上している。 最後に,特徴不確実性モデリングをうまく適用可能な3段階のトレーニングスキームを設計する。 cifar-10/100-lt, imagenet-lt, inaturalist 2018の実験では,提案手法が他の類似手法よりも優れていることが示された。 さらに、我々が発見した実験的な現象は、その後の研究に新しい視点と理論的基礎を提供することができる。

Real-world data are long-tailed, the lack of tail samples leads to a significant limitation in the generalization ability of the model. Although numerous approaches of class re-balancing perform well for moderate class imbalance problems, additional knowledge needs to be introduced to help the tail class recover the underlying true distribution when the observed distribution from a few tail samples does not represent its true distribution properly, thus allowing the model to learn valuable information outside the observed domain. In this work, we propose to leverage the geometric information of the feature distribution of the well-represented head class to guide the model to learn the underlying distribution of the tail class. Specifically, we first systematically define the geometry of the feature distribution and the similarity measures between the geometries, and discover four phenomena regarding the relationship between the geometries of different feature distributions. Then, based on four phenomena, feature uncertainty representation is proposed to perturb the tail features by utilizing the geometry of the head class feature distribution. It aims to make the perturbed features cover the underlying distribution of the tail class as much as possible, thus improving the model's generalization performance in the test domain. Finally, we design a three-stage training scheme enabling feature uncertainty modeling to be successfully applied. Experiments on CIFAR-10/100-LT, ImageNet-LT, and iNaturalist2018 show that our proposed approach outperforms other similar methods on most metrics. In addition, the experimental phenomena we discovered are able to provide new perspectives and theoretical foundations for subsequent studies.
翻訳日:2024-01-23 16:36:08 公開日:2024-01-21
# 多数派または少数派:名前付きエンティティ認識のためのデータ不均衡学習方法

Majority or Minority: Data Imbalance Learning Method for Named Entity Recognition ( http://arxiv.org/abs/2401.11431v1 )

ライセンス: Link先を確認
Sota Nemoto and Shunsuke Kitada and Hitoshi Iyatomi(参考訳) データ不均衡は、機械学習(ML)タスク、特に自然言語処理(NLP)におけるエンティティ認識(NER)において重要な課題となる。 NERは、多数のマイノリティクラス(エンティティクラス)と1つのマジョリティクラス(Oクラス)を特徴とする、長いテール分布とデータ不均衡を示す。 この不均衡は、エンティティクラスのoクラスへの誤分類につながる。 この不均衡に対処するために,多数派あるいは少数派(MoM)学習という,シンプルで効果的な学習手法を提案する。 MoM学習は、基礎的真理が多数派(すなわちOクラス)であるサンプルのみに計算された損失を、従来のMLモデルの損失に組み込む。 4つのNERデータセット(日本語と英語)に対する評価実験により,MoM学習は多数派のパフォーマンスを犠牲にすることなくマイノリティクラスの予測性能を向上することが示された。 また,NERで一般的に使用されるシーケンシャルラベリングや機械読影理解として,フレームワークを用いたMoM学習の評価を行った。 さらに、MoM学習は言語、モデル、フレームワークに関係なく、一貫したパフォーマンス向上を実現している。

Data imbalance presents a significant challenge in various machine learning (ML) tasks, particularly named entity recognition (NER) within natural language processing (NLP). NER exhibits a data imbalance with a long-tail distribution, featuring numerous minority classes (i.e., entity classes) and a single majority class (i.e., O-class). The imbalance leads to the misclassifications of the entity classes as the O-class. To tackle the imbalance, we propose a simple and effective learning method, named majority or minority (MoM) learning. MoM learning incorporates the loss computed only for samples whose ground truth is the majority class (i.e., the O-class) into the loss of the conventional ML model. Evaluation experiments on four NER datasets (Japanese and English) showed that MoM learning improves prediction performance of the minority classes, without sacrificing the performance of the majority class and is more effective than widely known and state-of-the-art methods. We also evaluated MoM learning using frameworks as sequential labeling and machine reading comprehension, which are commonly used in NER. Furthermore, MoM learning has achieved consistent performance improvements regardless of language, model, or framework.
翻訳日:2024-01-23 16:35:42 公開日:2024-01-21
# 異なる画像領域におけるGANとCycleGANによるグレースケール画像のカラー化

Grayscale Image Colorization with GAN and CycleGAN in Different Image Domain ( http://arxiv.org/abs/2401.11425v1 )

ライセンス: Link先を確認
Chen Liang, Yunchen Sheng, Yichen Mo(参考訳) グレースケール画像の自動カラー化は難しい課題である。 従来,この問題の克服に教師あり手法を適用してきた[1]。 本稿では,GANに基づくカラー化モデルを再現し,その変種の一つを実験する。 また, サイクルガンモデルを提案し, それらの手法を各種データセット上で実験した。 提案したCycleGANモデルは,顔色やマンガ色には適しているが,多彩な着色能力は欠如している。

Automatic colorization of grayscale image has been a challenging task. Previous research have applied supervised methods in conquering this problem [ 1]. In this paper, we reproduces a GAN-based coloring model, and experiments one of its variant. We also proposed a CycleGAN based model and experiments those methods on various datasets. The result shows that the proposed CycleGAN model does well in human-face coloring and comic coloring, but lack the ability to diverse colorization.
翻訳日:2024-01-23 16:35:20 公開日:2024-01-21
# セマンティクス知識強調レポートリファインメントによる視覚言語基礎モデルの拡張

Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement ( http://arxiv.org/abs/2401.11421v1 )

ライセンス: Link先を確認
Cheng Li, Weijian Huang, Hao Yang, Jiarun Liu, Shanshan Wang(参考訳) 近年,視覚言語表現学習は医療基礎モデルの構築において著しく進歩し,臨床研究や医療の展望を変革する可能性を秘めている。 根拠となる仮説は、放射線学レポートに埋め込まれた豊富な知識は、学習プロセスを効果的に支援し、ガイドし、追加ラベルの必要性を減らすことができるというものである。 しかし、これらの報告は複雑になりがちで、時には表現学習が重要な意味情報を取り込むのを難しくする冗長な記述から成り立っている。 本稿では,新しい反復的視覚言語表現学習フレームワークを開発し,重要な意味的知識を強調したレポートリファインメント手法を提案する。 特に、構築された臨床辞書と2つのモデルに最適化された知識エンハンスメント指標に従って重要な情報を強調するために、生放射線学レポートを洗練する。 この反復的なフレームワークは、生のレポートに基づいて患者の状態の一般的な理解を得ることから始まり、細かな分析タスクに必要な重要な情報を徐々に洗練し、抽出する、段階的に学習するように設計されている。 本手法の有効性は, 疾患分類, 関心領域分割, 句接地など, 下流医療画像解析の課題に対して検証された。 われわれのフレームワークは、微調整とゼロショット設定の両方で7つの最先端の方法を超えており、異なる臨床応用の可能性を示している。

Recently, vision-language representation learning has made remarkable advancements in building up medical foundation models, holding immense potential for transforming the landscape of clinical research and medical care. The underlying hypothesis is that the rich knowledge embedded in radiology reports can effectively assist and guide the learning process, reducing the need for additional labels. However, these reports tend to be complex and sometimes even consist of redundant descriptions that make the representation learning too challenging to capture the key semantic information. This paper develops a novel iterative vision-language representation learning framework by proposing a key semantic knowledge-emphasized report refinement method. Particularly, raw radiology reports are refined to highlight the key information according to a constructed clinical dictionary and two model-optimized knowledge-enhancement metrics. The iterative framework is designed to progressively learn, starting from gaining a general understanding of the patient's condition based on raw reports and gradually refines and extracts critical information essential to the fine-grained analysis tasks. The effectiveness of the proposed framework is validated on various downstream medical image analysis tasks, including disease classification, region-of-interest segmentation, and phrase grounding. Our framework surpasses seven state-of-the-art methods in both fine-tuning and zero-shot settings, demonstrating its encouraging potential for different clinical applications.
翻訳日:2024-01-23 16:35:11 公開日:2024-01-21
# 画像意味セグメンテーションのための適応最適化による埋め込みハイパースペクトル帯域選択

Embedded Hyperspectral Band Selection with Adaptive Optimization for Image Semantic Segmentation ( http://arxiv.org/abs/2401.11420v1 )

ライセンス: Link先を確認
Yaniv Zimmer and Oren Glickman(参考訳) ハイパースペクトル帯選択はリモートセンシングと画像解析において重要な役割を担い、計算オーバーヘッドを最小化しながら最も情報に富むスペクトル帯を特定することを目的としている。 本稿では,ハイパースペクトル帯選択の先駆的アプローチを導入し,リソース制約やリアルタイムアプリケーションに適した組み込みソリューションを提案する。 提案手法であるehbs(embedd hyperspectral band selection)は,サブストリームタスクモデルとシームレスに統合することにより,事前処理を必要とせずに最適な帯域を選択することができる。 これは、画像セマンティックセグメンテーションの文脈における高スペクトル帯域選択と、学習速度を調整する必要のない動的オプティマイザ(DoG)の統合のために、もともと特徴選択のために設計されたStochastic Gates (STG)アルゴリズムの適応によって達成される。 本手法の性能を評価するために,曲線下の領域で定量化された選択されたバンドの異なるターゲット数にわたるバンド選択法を評価するための新しい指標(auc)を提案する。 セマンティクス・セグメンテーションのハイパースペクトルベンチマークデータセットを2つに分けて実験を行い,その精度と使いやすさの点で,一般的な手法や最先端手法に比べて優れていることを示した。 さらに、我々の貢献は超スペクトル帯域選択の領域を超えて広がります。 他のタスク、特にグループ化された機能へのアプローチの適用性は、機能グループの特徴選択など、ディープラーニング領域における幅広いアプリケーションへの有望な道を開く。 テストしたデータセットの成功と、さまざまなタスクへの適用の可能性は、コンピュータビジョンの分野への実質的な追加として、我々の手法の価値を浮き彫りにした。

Hyperspectral band selection plays a pivotal role in remote sensing and image analysis, aiming to identify the most informative spectral bands while minimizing computational overhead. In this paper, we introduce a pioneering approach for hyperspectral band selection that offers an embedded solution, making it well-suited for resource-constrained or real-time applications. Our proposed method, embedded Hyperspectral Band Selection (EHBS), excels in selecting the best bands without the need for prior processing, seamlessly integrating with the downstream task model. This is achieved through the adaptation of the Stochastic Gates (STG) algorithm, originally designed for feature selection, for hyperspectral band selection in the context of image semantic segmentation and the integration of a dynamic optimizer, DoG, which removes the need for the required tuning the learning rate. To assess the performance of our method, we introduce a novel metric for evaluating band selection methods across different target numbers of selected bands quantified by the Area Under the Curve (AUC). We conduct experiments on two distinct semantic-segmentation hyperspectral benchmark datasets, demonstrating its superiority in terms of its resulting accuracy and its ease of use compared to many common and state-of-the-art methods. Furthermore, our contributions extend beyond the realm of hyperspectral band selection. The adaptability of our approach to other tasks, especially those involving grouped features, opens up promising avenues for broader applications within the realm of deep learning, such as feature selection for feature groups. The demonstrated success on the tested datasets and the potential for application to a variety of tasks underscore the value of our method as a substantial addition to the field of computer vision.
翻訳日:2024-01-23 16:34:47 公開日:2024-01-21
# 高度クラスタリングと分類のためのダブルバウンド最適トランスポート

Double-Bounded Optimal Transport for Advanced Clustering and Classification ( http://arxiv.org/abs/2401.11418v1 )

ライセンス: Link先を確認
Liangliang Shi, Zhaoqi Shen, Junchi Yan(参考訳) 機械学習において、最適な輸送(OT)が注目を集めている。 ソースの配布を最小限のコストでターゲットに転送することを目的としている。 バニラ形式では、ソースとターゲットの分布を定め、未決定のターゲットを含む実世界のケースと契約する。 本稿では, 目標分布が固定された領域ではなく2つの境界内で制限されていることを前提として, 二重境界最適輸送(DB-OT)を提案する。 db-otのエントロピー正則化に基づき,最適解を計算するために3つのスケーリングベースアルゴリズムが考案された。 また,当社のdb-otは,単一クラスタ内のサンプルの過剰な集中を回避するため,barycenterベースのクラスタリングに有用であることを示す。 そこで我々は,DB-OT技術をさらに発展させ,新たな課題である長い尾の分類を行う。 まず, otと分類の関連について提案する。すなわち, 分類タスクでは, 逆otを最適化して表現を学習し, テストでは予測のためにotを最適化する。 このOTパースペクティブでは、損失を改善するためにDB-OTを最初に適用し、特別なケースとしてバランスド・ソフトマックスを示す。 次に、テストプロセスの推論にDB-OTを適用します。 バニラ型Softmax訓練機能を用いても,本手法は試験段階において改良された推論方式により良好な結果が得られることを示す。

Optimal transport (OT) is attracting increasing attention in machine learning. It aims to transport a source distribution to a target one at minimal cost. In its vanilla form, the source and target distributions are predetermined, which contracts to the real-world case involving undetermined targets. In this paper, we propose Doubly Bounded Optimal Transport (DB-OT), which assumes that the target distribution is restricted within two boundaries instead of a fixed one, thus giving more freedom for the transport to find solutions. Based on the entropic regularization of DB-OT, three scaling-based algorithms are devised for calculating the optimal solution. We also show that our DB-OT is helpful for barycenter-based clustering, which can avoid the excessive concentration of samples in a single cluster. Then we further develop DB-OT techniques for long-tailed classification which is an emerging and open problem. We first propose a connection between OT and classification, that is, in the classification task, training involves optimizing the Inverse OT to learn the representations, while testing involves optimizing the OT for predictions. With this OT perspective, we first apply DB-OT to improve the loss, and the Balanced Softmax is shown as a special case. Then we apply DB-OT for inference in the testing process. Even with vanilla Softmax trained features, our extensive experimental results show that our method can achieve good results with our improved inference scheme in the testing stage.
翻訳日:2024-01-23 16:34:17 公開日:2024-01-21
# S$3$M-Net:自律運転のためのセマンティックセグメンテーションとステレオマッチングの統合学習

S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching for Autonomous Driving ( http://arxiv.org/abs/2401.11414v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Yi Feng, Chuang-Wei Liu, Fisher Yu, Qijun Chen, Rui Fan(参考訳) セマンティクスセグメンテーションとステレオマッチングは、自律運転のための3次元環境知覚システムの2つの必須要素である。 しかしながら、従来の手法ではこれらの2つの問題を個別に扱い、各タスクに別々のモデルを用いることが多い。 このアプローチは、特に計算資源が不足したり、リアルタイム性能が必須である場合に、実世界のシナリオにおいて実用的な制限をもたらす。 そこで本稿では,意味セグメンテーションとステレオマッチングを同時に行うための新しい共同学習フレームワークであるs$^3$m-netを紹介する。 具体的には、S$3$M-Netは、両方のタスク間でRGB画像から抽出された特徴を共有し、全体的なシーン理解能力が改善された。 この特徴共有プロセスは、機能融合適応(ffa)モジュールを使用して実現され、共有された特徴を効果的に意味空間に変換し、符号化された異質な特徴と融合する。 統合学習フレームワーク全体は、両タスクの構造的一貫性を重視した、新しいセマンティック一貫性ガイド(scg)損失を最小化することでトレーニングされる。 vKITTI2 と KITTI のデータセットを用いて行った大規模な実験結果から,提案した統合学習フレームワークの有効性と,他の最先端シングルタスクネットワークと比較して優れた性能を示した。 プロジェクトのWebページは mias.group/S3M-Net でアクセスできます。

Semantic segmentation and stereo matching are two essential components of 3D environmental perception systems for autonomous driving. Nevertheless, conventional approaches often address these two problems independently, employing separate models for each task. This approach poses practical limitations in real-world scenarios, particularly when computational resources are scarce or real-time performance is imperative. Hence, in this article, we introduce S$^3$M-Net, a novel joint learning framework developed to perform semantic segmentation and stereo matching simultaneously. Specifically, S$^3$M-Net shares the features extracted from RGB images between both tasks, resulting in an improved overall scene understanding capability. This feature sharing process is realized using a feature fusion adaption (FFA) module, which effectively transforms the shared features into semantic space and subsequently fuses them with the encoded disparity features. The entire joint learning framework is trained by minimizing a novel semantic consistency-guided (SCG) loss, which places emphasis on the structural consistency in both tasks. Extensive experimental results conducted on the vKITTI2 and KITTI datasets demonstrate the effectiveness of our proposed joint learning framework and its superior performance compared to other state-of-the-art single-task networks. Our project webpage is accessible at mias.group/S3M-Net.
翻訳日:2024-01-23 16:33:54 公開日:2024-01-21
# 深層学習に基づく農業推薦システム:多変量気象予報手法

Agricultural Recommendation System based on Deep Learning: A Multivariate Weather Forecasting Approach ( http://arxiv.org/abs/2401.11410v1 )

ライセンス: Link先を確認
Md Zubair (1), Md. Shahidul Salim (2), Mehrab Mustafy Rahman (3), Mohammad Jahid Ibna Basher (1), Shahin Imran (4) and Iqbal H. Sarker (5) ((1) Chittagong University of Engineering & Technology, Chittagong, Bangladesh, (2) Khulna University of Engineering & Technology, Khulna, Bangladesh, (3) Islamic University of Technology, Gazipur, Bangladesh, (4) Khulna Agricultural University, Khulna, Bangladesh, (5) Edith Cowan University, Perth, Australia.)(参考訳) バングラデシュは主に農業国であり、農業部門は経済成長を加速し、人々の食料安全保障を可能にする上で重要な役割を担っている。 このセクターのパフォーマンスは、食料安全保障、雇用創出、貧困軽減、人的資源開発、その他の経済・社会力といった主要なマクロ経済目標に圧倒的な影響を与えている。 バングラデシュの労働集約農業は食糧穀物生産を着実に増加させているが、大雨や低温、干ばつなどの悪天候に悩まされることが多い。 その結果、これらの要因は食糧生産を著しく阻害し、国内の食品全体の安全を危険にさらすことになった。 本研究は, 収益性, 持続性, 農家フレンドリーな農業実践を実現するために, 気象予報モデルを活用したコンテクストベース作物推薦システムを提案する。 天気予報モデルとして多変量重畳Bi-LSTMネットワークが広く評価されている。 提案する気象モデルは、バングラデシュのどの場所においても、降雨、気温、湿度、日差しを高い精度で予測することができる。 これらの予測は,農業従事者による植林・灌水・収穫等の意思決定を支援するためのものである。 また, 本システムは, 農業者に対して, 極端な気象条件を知らせることができ, 農作物保護のための予防措置を講じることができる。 最後に、このシステムはバングラデシュの洪水と干ばつの地域に対する知識に基づく作物の提案にも適している。

Bangladesh is predominantly an agricultural country, where the agrarian sector plays an essential role in accelerating economic growth and enabling the food security of the people. The performance of this sector has an overwhelming impact on the primary macroeconomic objectives like food security, employment generation, poverty alleviation, human resources development, and other economic and social forces. Although Bangladesh's labor-intensive agriculture has achieved steady increases in food grain production, it often suffered from unfavorable weather conditions such as heavy rainfall, low temperature, and drought. Consequently, these factors hinder the production of food substantially, putting the country's overall food security in danger. In order to have a profitable, sustainable, and farmer-friendly agricultural practice, this paper proposes a context-based crop recommendation system powered by a weather forecast model. With extensive evaluation, the multivariate Stacked Bi-LSTM Network is employed as the weather forecasting model. The proposed weather model can forecast Rainfall, Temperature, Humidity, and Sunshine for any given location in Bangladesh with higher accuracy. These predictions guide our system to assist the farmers in making feasible decisions about planting, irrigation, harvesting, and so on. Additionally, our full-fledged system is capable of alerting the farmers about extreme weather conditions so that preventive measures can be undertaken to protect the crops. Finally, the system is also adept at making knowledge-based crop suggestions for the flood and drought-prone regions of Bangladesh.
翻訳日:2024-01-23 16:33:14 公開日:2024-01-21
# SEBERTNets: ファイナンスフィールドに向けたイベントエンティティ抽出タスクのためのシーケンス拡張BERTネットワーク

SEBERTNets: Sequence Enhanced BERT Networks for Event Entity Extraction Tasks Oriented to the Finance Field ( http://arxiv.org/abs/2401.11408v1 )

ライセンス: Link先を確認
Congqing He, Xiangyu Zhu, Yuquan Le, Yuzhong Liu, Jianhong Yin(参考訳) イベント抽出は、金融分野における投資分析と資産管理の中心にあり、多くの注目を集めている。 2019年の知識グラフとセマンティックコンピューティング(CCKS)に関する中国会議は、金融分野を指向したイベントエンティティ抽出タスクの評価競争を立案した。 本稿では、主にイベントエンティティを正確に抽出する方法に注目し、対応するイベントエンティティを効率的にリコールする。 本稿では、BERTの利点を継承し、シーケンシャルなセマンティック情報をキャプチャしながら、新しいモデルSEBERTNet(Sequence Enhanced BERT Networks)を提案する。 さらに,レコメンデーションシステムに動機づけられて,マルチチャネルリコール法を用いて対応するすべてのイベントエンティティをリコールするハイブリッドシーケンス拡張bertネットワーク(hsebertnets,略してhsebertnets)を提案する。 実験の結果,SEBERTNetsのF1スコアは1段目で0.905であり,HSEBERTNetsのF1スコアは1段目で0.934であることがわかった。

Event extraction lies at the cores of investment analysis and asset management in the financial field, and thus has received much attention. The 2019 China conference on knowledge graph and semantic computing (CCKS) challenge sets up a evaluation competition for event entity extraction task oriented to the finance field. In this task, we mainly focus on how to extract the event entity accurately, and recall all the corresponding event entity effectively. In this paper, we propose a novel model, Sequence Enhanced BERT Networks (SEBERTNets for short), which can inherit the advantages of the BERT,and while capturing sequence semantic information. In addition, motivated by recommendation system, we propose Hybrid Sequence Enhanced BERT Networks (HSEBERTNets for short), which uses a multi-channel recall method to recall all the corresponding event entity. The experimental results show that, the F1 score of SEBERTNets is 0.905 in the first stage, and the F1 score of HSEBERTNets is 0.934 in the first stage, which demonstarate the effectiveness of our methods.
翻訳日:2024-01-23 16:32:29 公開日:2024-01-21
# 反事実彫刻はひび割れ状態の忠実度を指数関数的に改善する

Counter-factual carving exponentially improves entangled-state fidelity ( http://arxiv.org/abs/2401.11407v1 )

ライセンス: Link先を確認
Joshua Ramette, Josiah Sinclair, Vladan Vuleti\'c(参考訳) 本研究では,プローブの"no-jump"進化を用いて,忠実度の高い絡み合った多体状態を生成する新しい手法である"counter-factual"型彫刻を提案する。 プローブは、量子ビットのターゲットアンサンブルに結合され、ターゲットの集団スピンに応じて指数関数的に減衰するように設計され、プローブの崩壊を観測する後の選択が、より早い分解スピン成分を正確に除去する。 プローブと$N$-qubitターゲットがコオペラティティティの空洞モード$C$を介して相互作用すると、反事実彫刻は、以前の彫刻方式よりも指数関数的改善である$e^{-C/N}$の不忠実な絡み合った状態を生成する。 反事実彫刻は量子力学や量子コンピューティングへの応用のために複雑な絡み合った状態を生成することができる。

We propose a new method, "counter-factual" carving, that uses the "no-jump" evolution of a probe to generate entangled many-body states of high fidelity. The probe is coupled to a target ensemble of qubits and engineered to exponentially decay at a rate depending on the target collective spin, such that post-selecting on observing no probe decay precisely removes select faster-decaying spin components. When probe and $N$-qubit target interact via a cavity mode of cooperativity $C$, counter-factual carving generates entangled states with infidelities of $e^{-C/N}$, an exponential improvement over previous carving schemes. Counter-factual carving can generate complex entangled states for applications in quantum metrology and quantum computing.
翻訳日:2024-01-23 16:31:15 公開日:2024-01-21
# adversarial augmentation trainingは、アクション認識モデルをよりリアルなビデオ配信シフトに堅牢にする

Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts ( http://arxiv.org/abs/2401.11406v1 )

ライセンス: Link先を確認
Kiyoon Kim, Shreyank N Gowda, Panagiotis Eustratiadis, Antreas Antoniou, Robert B Fisher(参考訳) 既存のベンチマークで強力なパフォーマンスを達成するビデオアクション認識の最近の進歩にもかかわらず、これらのモデルはトレーニングとテストデータの間の自然な分散シフトに直面した場合、しばしば堅牢性に欠ける。 そこで本研究では,分布のばらつきに対するモデルのレジリエンスを評価するための2つの新しい評価手法を提案する。 あるメソッドは、異なるソースから収集された2つの異なるデータセットを使用し、トレーニングと検証に1つ、テストに1つを使用する。 より正確には、トレーニング用のHMDB-51またはUCF-101のデータセット分割と、テスト用のKinetics-400を作成しました。 もう1つの提案手法は、対象評価データセットのトレーニングデータ(すなわちクラスプロトタイプ)から各クラスの特徴平均を抽出し、各サンプルから各対象クラスのクラスプロトタイプへのコサイン類似度スコアとしてテストビデオ予測を推定する。 この方法では、ターゲットデータセットを使用したモデル重み付けを変更せず、2つの異なるデータセットの重なり合うクラスを調整する必要はなく、ターゲット分布の事前の知識なしに分布シフトに対するモデルロバスト性をテストする非常に効率的な方法である。 本研究は,ビデオ拡張の強度を推定する「カリキュラム」だけでなく,拡張パラメータの勾配上昇を適用して,分類モデルに「ハード」な映像の強化ビューを生成する対向的拡張学習によるロバストネス問題に対処する。 提案手法は,TSM, Video Swin Transformer, Uniformerの3種類の動作認識モデルに対して,ベースラインよりも高い性能を示す。 本研究は,分散シフトに対するモデルロバスト性に関する重要な知見を提供し,実世界展開における映像行動認識性能を向上させる効果的な技術を提供する。

Despite recent advances in video action recognition achieving strong performance on existing benchmarks, these models often lack robustness when faced with natural distribution shifts between training and test data. We propose two novel evaluation methods to assess model resilience to such distribution disparity. One method uses two different datasets collected from different sources and uses one for training and validation, and the other for testing. More precisely, we created dataset splits of HMDB-51 or UCF-101 for training, and Kinetics-400 for testing, using the subset of the classes that are overlapping in both train and test datasets. The other proposed method extracts the feature mean of each class from the target evaluation dataset's training data (i.e. class prototype) and estimates test video prediction as a cosine similarity score between each sample to the class prototypes of each target class. This procedure does not alter model weights using the target dataset and it does not require aligning overlapping classes of two different datasets, thus is a very efficient method to test the model robustness to distribution shifts without prior knowledge of the target distribution. We address the robustness problem by adversarial augmentation training - generating augmented views of videos that are "hard" for the classification model by applying gradient ascent on the augmentation parameters - as well as "curriculum" scheduling the strength of the video augmentations. We experimentally demonstrate the superior performance of the proposed adversarial augmentation approach over baselines across three state-of-the-art action recognition models - TSM, Video Swin Transformer, and Uniformer. The presented work provides critical insight into model robustness to distribution shifts and presents effective techniques to enhance video action recognition performance in a real-world deployment.
翻訳日:2024-01-23 16:30:34 公開日:2024-01-21
# インクルーシティ向上に向けて: 英語の多様なツイートコーパス

Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties ( http://arxiv.org/abs/2401.11487v1 )

ライセンス: Link先を確認
Nhi Pham, Lachlan Pham, Adam L. Meyers(参考訳) ソーシャルメディアの普及は、英語の事例を収集し分析する機会を増やしている。 これらの品種の使用は、多くの場合、音声コンテキストやアクセスが難しいプライベートメッセージでのみ使用されているが、Twitterのようなソーシャルメディアサイトは、ユーザーが非公式にスクラップ可能な形式でコミュニケーションするためのプラットフォームを提供している。 特に、インド英語(ヒングリッシュ)、シンガポール英語(シングリッシュ)、アフリカ系アメリカ人英語(AAE)はオンラインで一般に見られる。 これらの変種は、既存の自然言語処理(NLP)ツールに対して、ほとんどのツールが構築されている標準英語と正書法的に、構文的に異なることが多いため、課題となる。 標準英語のテキストで訓練されたNLPモデルは、表現不足の品種のユーザに対してバイアスのある結果を生み出した。 いくつかの研究は、データ拡張やトレーニングモデルの調整といったテクニックを通じて、非表現的なデータに起因する固有のバイアスを克服することを目的としている。 私たちは、バイアスの根源であるデータそのものの問題に対処したいと思っています。 本研究では,英語話者の比率が低い国からのつぶやきのデータセットをキュレートし,標準英語の度合いを測る疑似スペクトルに沿った6つのカテゴリー分類のアノテーションフレームワークを提案する。 ベストプラクティスに従って、我々の成長するコーパスは7カ国から170,800のツイートを抽出し、それらの国から来たアノテーターによってラベル付けされ、地域的に支配的な英語でコミュニケーションできる。 このコーパスは、西部英語と非西部英語(すなわち標準的ではない)の言語識別子の精度の相違を強調する。 我々は,NLPにおける暗黙的な人口格差の特定と低減に寄与したい。

The prevalence of social media presents a growing opportunity to collect and analyse examples of English varieties. Whilst usage of these varieties was - and, in many cases, still is - used only in spoken contexts or hard-to-access private messages, social media sites like Twitter provide a platform for users to communicate informally in a scrapeable format. Notably, Indian English (Hinglish), Singaporean English (Singlish), and African-American English (AAE) can be commonly found online. These varieties pose a challenge to existing natural language processing (NLP) tools as they often differ orthographically and syntactically from standard English for which the majority of these tools are built. NLP models trained on standard English texts produced biased outcomes for users of underrepresented varieties. Some research has aimed to overcome the inherent biases caused by unrepresentative data through techniques like data augmentation or adjusting training models. We aim to address the issue of bias at its root - the data itself. We curate a dataset of tweets from countries with high proportions of underserved English variety speakers, and propose an annotation framework of six categorical classifications along a pseudo-spectrum that measures the degree of standard English and that thereby indirectly aims to surface the manifestations of English varieties in these tweets. Following best annotation practices, our growing corpus features 170,800 tweets taken from 7 countries, labeled by annotators who are from those countries and can communicate in regionally-dominant varieties of English. Our corpus highlights the accuracy discrepancies in pre-trained language identifiers between western English and non-western (i.e., less standard) English varieties. We hope to contribute to the growing literature identifying and reducing the implicit demographic discrepancies in NLP.
翻訳日:2024-01-23 16:23:22 公開日:2024-01-21
# colorvideovdp:画像、映像、およびディスプレイの歪みの視覚的差予測装置

ColorVideoVDP: A visual difference predictor for image, video and display distortions ( http://arxiv.org/abs/2401.11485v1 )

ライセンス: Link先を確認
Rafal K. Mantiuk, Param Hanji, Maliha Ashraf, Yuta Asano, Alexandre Chapiro(参考訳) colorvideovdp(カラービデオvdp)は、視覚の空間的および時間的側面を、輝度と色の両方でモデル化するビデオおよび画質指標である。 この計量は、クロマティック時空間コントラスト感度とクロスチャネルコントラストマスキングの新しい心理物理学モデルに基づいている。 ディスプレイの視聴条件、幾何学的特徴、測光特性を考慮に入れている。 一般的なビデオストリーミングの歪み(例えば、ビデオ圧縮、再スケーリング、送信エラー)の予測と、AR/VRディスプレイ(例えば、光源と導波路の非均一性)に関連する8種類の新しい歪みの予測を訓練された。 後者のアプリケーションに対処するため,336の歪みビデオからなる新しいXR-Display-Artifact-Video Quality Data (XR-DAVID)を収集した。 XR-DAVIDの大規模なテストと文献からのいくつかのデータセットは、既存のメトリクスと比較して予測性能が大幅に向上したことを示している。 ColorVideoVDPは、ビデオストリーミング、ディスプレイ仕様とデザイン、結果の視覚的比較、知覚的に誘導された品質最適化など、輝度と色歪みの同時自動時空間評価を必要とする多くの新しいアプリケーションへの扉を開く。

ColorVideoVDP is a video and image quality metric that models spatial and temporal aspects of vision, for both luminance and color. The metric is built on novel psychophysical models of chromatic spatiotemporal contrast sensitivity and cross-channel contrast masking. It accounts for the viewing conditions, geometric, and photometric characteristics of the display. It was trained to predict common video streaming distortions (e.g. video compression, rescaling, and transmission errors), and also 8 new distortion types related to AR/VR displays (e.g. light source and waveguide non-uniformities). To address the latter application, we collected our novel XR-Display-Artifact-Video quality dataset (XR-DAVID), comprised of 336 distorted videos. Extensive testing on XR-DAVID, as well as several datasets from the literature, indicate a significant gain in prediction performance compared to existing metrics. ColorVideoVDP opens the doors to many novel applications which require the joint automated spatiotemporal assessment of luminance and color distortions, including video streaming, display specification and design, visual comparison of results, and perceptually-guided quality optimization.
翻訳日:2024-01-23 16:22:50 公開日:2024-01-21
# 議論論における抽象重み付き直交意味論

Abstract Weighted Based Gradual Semantics in Argumentation Theory ( http://arxiv.org/abs/2401.11472v1 )

ライセンス: Link先を確認
Assaf Libman, Nir Oren, Bruno Yun(参考訳) 重み付けされた段階的意味論は、議論の強さを表す各論点に対して受容性度を与え、論証の背景証拠を含む要因に基づいて計算し、この論点と他の論点との相互作用を考慮に入れる。 段階的意味論と受容可能性度を結びつける4つの重要な問題を導入する。 まず、逆問題を再検討し、議論フレームワークの議論の重み付けを特定し、それが特定の最終受容性次数につながることを求める。 第二に、議論重みと受理度の間の関数写像がその像に対して射影的あるいは同型であるかどうかを問う。 第3に、引数の許容度が考慮されるのではなく、選択時に引数重みが見つかるかどうかを問う。 第4に、この空間にギャップが存在するかどうかを問う、有効な受容可能性の空間の位相を考える。 本稿では,重み付き漸進的意味論(abstract weighted based gradual semantics)という,重み付き漸進的意味論(gradual semantics)の大きなファミリーを同定する。 これらのことは既存の意味論の多くを一般化し、一意の固定点への収束のような望ましい性質を維持している。 また、抽象重み付け(Lp,lambda,mu,A)に基づく漸進的意味論と呼ばれる、重み付けされた漸進的意味論のサブファミリーが、上記の4つの問題を全て解決していることを示す。

Weighted gradual semantics provide an acceptability degree to each argument representing the strength of the argument, computed based on factors including background evidence for the argument, and taking into account interactions between this argument and others. We introduce four important problems linking gradual semantics and acceptability degrees. First, we reexamine the inverse problem, seeking to identify the argument weights of the argumentation framework which lead to a specific final acceptability degree. Second, we ask whether the function mapping between argument weights and acceptability degrees is injective or a homeomorphism onto its image. Third, we ask whether argument weights can be found when preferences, rather than acceptability degrees for arguments are considered. Fourth, we consider the topology of the space of valid acceptability degrees, asking whether gaps exist in this space. While different gradual semantics have been proposed in the literature, in this paper, we identify a large family of weighted gradual semantics, called abstract weighted based gradual semantics. These generalise many of the existing semantics while maintaining desirable properties such as convergence to a unique fixed point. We also show that a sub-family of the weighted gradual semantics, called abstract weighted (Lp,lambda,mu,A)-based gradual semantics and which include well-known semantics, solve all four of the aforementioned problems.
翻訳日:2024-01-23 16:22:26 公開日:2024-01-21
# LR-CNN:メモリ削減のための軽量ロー中心畳み込みニューラルネットワークトレーニング

LR-CNN: Lightweight Row-centric Convolutional Neural Network Training for Memory Reduction ( http://arxiv.org/abs/2401.11471v1 )

ライセンス: Link先を確認
Zhigang Wang, Hangyu Yang, Ning Wang, Chuanfei Xu, Jie Nie, Zhiqiang Wei, Yu Gu, Ge Yu(参考訳) 過去10年間で、多層アーキテクチャによる畳み込みニューラルネットワークは急速に進歩した。 しかし、特に大きなバッチサイズで高次元入力を処理する場合、多くの中間データが層間で保存されるため、複雑なネットワークのトレーニングは非常にスペースを消費する。 これにより、現在のアクセラレータ(GPUなど)のメモリ容量の制限に大きな課題が生じる。 既存の取り組みは、追加のハードウェアコストによる外部補助ソリューションによるボトルネックの緩和と、潜在的な精度のペナルティによる内部修正によって緩和されている。 異なる解析結果から, 層内および層間計算は空間的・時間的弱依存性を示し, 完全な独立性を示した。 これは従来のレイヤバイレイヤ(カラム)データフロールールを破るきっかけになります。 現在、操作は畳み込み層全体にわたって新規に行に再編成されている。 この軽量な設計により、ほとんどの中間データを精度を損なうことなく取り除くことができる。 特に2つの連続する行間の弱い依存について研究する。 結果として発生するスキューメモリ消費に対して、異なるシナリオで2つのソリューションを提供する。 2つの代表ネットワークの評価により有効性が確認された。 また、中間データフロー最適化が、メモリ削減のために既存の作業によってスムーズに取り入れられることを検証します。

In the last decade, Convolutional Neural Network with a multi-layer architecture has advanced rapidly. However, training its complex network is very space-consuming, since a lot of intermediate data are preserved across layers, especially when processing high-dimension inputs with a big batch size. That poses great challenges to the limited memory capacity of current accelerators (e.g., GPUs). Existing efforts mitigate such bottleneck by external auxiliary solutions with additional hardware costs, and internal modifications with potential accuracy penalty. Differently, our analysis reveals that computations intra- and inter-layers exhibit the spatial-temporal weak dependency and even complete independency features. That inspires us to break the traditional layer-by-layer (column) dataflow rule. Now operations are novelly re-organized into rows throughout all convolution layers. This lightweight design allows a majority of intermediate data to be removed without any loss of accuracy. We particularly study the weak dependency between two consecutive rows. For the resulting skewed memory consumption, we give two solutions with different favorite scenarios. Evaluations on two representative networks confirm the effectiveness. We also validate that our middle dataflow optimization can be smoothly embraced by existing works for better memory reduction.
翻訳日:2024-01-23 16:21:57 公開日:2024-01-21
# マルチモーダルエゴセントリックデータセットにおける欠落モードの探索

Exploring Missing Modality in Multimodal Egocentric Datasets ( http://arxiv.org/abs/2401.11470v1 )

ライセンス: Link先を確認
Merey Ramazanova and Alejandro Pardo and Humam Alwassel and Bernard Ghanem(参考訳) マルチモーダルビデオ理解は、複数の感覚信号を統合することで、行動認識とモーメントローカライゼーションを大幅に向上させる。 しかし、プライバシの懸念、効率の要求、ハードウェアの故障などの要因により、実用アプリケーションは不完全なモダリティに悩まされることが多い。 そこで本研究では,エゴセントリックな行動認識,特にトランスフォーマーモデルにおけるモダリティの欠如の影響について検討した。 モダリティが欠如している場合でも、パフォーマンスを維持するための新しい概念として、Ego4D、Epic-Kitchens、Epic-Soundsデータセットに有効な戦略を提案する。 この方法は性能低下を軽減し、テストセットの半分がモーダル不完全である場合、元の$\sim 30\%$ から$\sim 10\%$ に削減する。 広範囲な実験を通じて,MMTの異なる訓練シナリオへの適応性や,既存の手法と比較して欠落したモダリティを扱う上での優位性を実証した。 我々の研究は包括的分析と革新的なアプローチに寄与し、現実の環境でよりレジリエンスなマルチモーダルシステムの道を開く。

Multimodal video understanding is crucial for analyzing egocentric videos, where integrating multiple sensory signals significantly enhances action recognition and moment localization. However, practical applications often grapple with incomplete modalities due to factors like privacy concerns, efficiency demands, or hardware malfunctions. Addressing this, our study delves into the impact of missing modalities on egocentric action recognition, particularly within transformer-based models. We introduce a novel concept -Missing Modality Token (MMT)-to maintain performance even when modalities are absent, a strategy that proves effective in the Ego4D, Epic-Kitchens, and Epic-Sounds datasets. Our method mitigates the performance loss, reducing it from its original $\sim 30\%$ drop to only $\sim 10\%$ when half of the test set is modal-incomplete. Through extensive experimentation, we demonstrate the adaptability of MMT to different training scenarios and its superiority in handling missing modalities compared to current methods. Our research contributes a comprehensive analysis and an innovative approach, opening avenues for more resilient multimodal systems in real-world settings.
翻訳日:2024-01-23 16:21:39 公開日:2024-01-21
# 大規模言語モデルの過剰推論と冗長計算

Over-Reasoning and Redundant Calculation of Large Language Models ( http://arxiv.org/abs/2401.11467v1 )

ライセンス: Link先を確認
Cheng-Han Chiang, Hung-yi Lee(参考訳) 大規模言語モデル(LLM)は段階的に問題を解決することができる。 このチェーン・オブ・シンクレット(CoT)推論はLLMのパフォーマンスを高めるが、LLMs \textit{know}がいつCoTを使うか、そしてそれらのCoTが常に質問に答える必要があるかどうかは不明である。 本稿では,手動で構築した算数qaデータセットgsm8k-zero上で,llmが冗長な計算と推論を行う傾向を示す。 GSM8K-Zeroは、質問を計算せずに答えられるように構成されているが、Llama-2モデルやClaude-2を含むLLMは、質問に答えるために長く不必要な計算を生成する傾向がある。 LLMがなぜ冗長な計算や推論を生成するのかを説明する実験も行います。 GSM8K-Zeroはhttps://github.com/d223302/Over-Reasoning-of-LLMsとhttps://huggingface.co/datasets/dcml0714/GSM8K-Zeroで公開されている。

Large language models (LLMs) can solve problems step-by-step. While this chain-of-thought (CoT) reasoning boosts LLMs' performance, it is unclear if LLMs \textit{know} when to use CoT and whether those CoT are always necessary to answer the question. This paper shows that LLMs tend to generate redundant calculations and reasoning on a manually constructed math QA dataset, GSM8K-Zero. GSM8K-Zero is constructed such that the questions can be answered without any calculations, but LLMs, including Llama-2 models and Claude-2, tend to generate lengthy and unnecessary calculations to answer the questions. We also conduct experiments to explain why LLMs generate redundant calculations and reasonings. GSM8K-Zero is publicly available at https://github.com/d223302/Over-Reasoning-of-LLMs and https://huggingface.co/datasets/dcml0714/GSM8K-Zero.
翻訳日:2024-01-23 16:21:17 公開日:2024-01-21
# 会話探索における質問と回答の明確化の有用性の推定

Estimating the Usefulness of Clarifying Questions and Answers for Conversational Search ( http://arxiv.org/abs/2401.11463v1 )

ライセンス: Link先を確認
Ivan Sekuli\'c, Weronika {\L}ajewska, Krisztian Balog, Fabio Crestani(参考訳) 複合対話型検索システムにおいて,質問の構築と生成を目的とした研究が広く行われているが,質問に対するユーザの回答の処理と理解を目的とした研究は少ない。 そこで本研究では,従来の質問に答えを付加して検索性能を低下させるような従来の作業から脱却し,回答処理をシンプルかつ効果的に行う方法を提案する。 具体的には,ユーザに提示された質問と回答の有効性を評価するための分類器を提案する。 会話履歴に有用な質問や回答が付加され、トランスフォーマーベースのクエリ書き換えモジュールに渡される。 その結果,非混合イニシアティブベースラインが大幅に改善した。 さらに,提案手法は,非有用な質問や回答を利用する場合のパフォーマンス低下を軽減する。

While the body of research directed towards constructing and generating clarifying questions in mixed-initiative conversational search systems is vast, research aimed at processing and comprehending users' answers to such questions is scarce. To this end, we present a simple yet effective method for processing answers to clarifying questions, moving away from previous work that simply appends answers to the original query and thus potentially degrades retrieval performance. Specifically, we propose a classifier for assessing usefulness of the prompted clarifying question and an answer given by the user. Useful questions or answers are further appended to the conversation history and passed to a transformer-based query rewriting module. Results demonstrate significant improvements over strong non-mixed-initiative baselines. Furthermore, the proposed approach mitigates the performance drops when non useful questions and answers are utilized.
翻訳日:2024-01-23 16:20:57 公開日:2024-01-21
# ファース州における機械学習手法による凍害予測

Frost Prediction Using Machine Learning Methods in Fars Province ( http://arxiv.org/abs/2401.11462v1 )

ライセンス: Link先を確認
Milad Barooni, Koorush Ziarati, Ali Barooni(参考訳) 気象学と農業における一般的な危険と問題のひとつは、凍土、凍結、凍結の問題である。 この現象は、最小環境温度が一定の値を下回ったときに起こる。 この現象は国内、特にファーズ州に多くの被害をもたらしている。 この問題を解決するには、最低温度の予測に加えて、必要な対策を実施するのに十分な時間を与える必要がある。 食品農業機関(FAO)は、最低気温を予測できるが、時間内には予測できない実証的な方法を提供している。 これに加えて、最小温度をモデル化する機械学習手法も利用可能である。 本研究では, Gated Recurrent Unit (GRU), Temporal Convolutional Network (TCN), Gradient Boosting (XGBoost) の3つの手法を用いた。 深層学習に基づく手法に最適化された損失関数を設計し,予測誤差の低減に有効である。 深層学習モデルに基づく手法では,経験的手法に比べてrmse誤差の低減が観察されるだけでなく,最低温度を予測できる時間も大きい。 したがって、現在の24時間を持つことで、次の24時間最小温度をモデル化することができる。 勾配向上モデル(XGBoost)では,ディープラーニングやRMSEエラーの低減とともに予測時間を維持できる。 最後に,機械学習の手法は経験的手法よりもうまく機能し,XGBoostモデルは,他の実装よりも優れた性能が得られることを実験的に結論づけた。

One of the common hazards and issues in meteorology and agriculture is the problem of frost, chilling or freezing. This event occurs when the minimum ambient temperature falls below a certain value. This phenomenon causes a lot of damage to the country, especially Fars province. Solving this problem requires that, in addition to predicting the minimum temperature, we can provide enough time to implement the necessary measures. Empirical methods have been provided by the Food and Agriculture Organization (FAO), which can predict the minimum temperature, but not in time. In addition to this, we can use machine learning methods to model the minimum temperature. In this study, we have used three methods Gated Recurrent Unit (GRU), Temporal Convolutional Network (TCN) as deep learning methods, and Gradient Boosting (XGBoost). A customized loss function designed for methods based on deep learning, which can be effective in reducing prediction errors. With methods based on deep learning models, not only do we observe a reduction in RMSE error compared to empirical methods but also have more time to predict minimum temperature. Thus, we can model the minimum temperature for the next 24 hours by having the current 24 hours. With the gradient boosting model (XGBoost) we can keep the prediction time as deep learning and RMSE error reduced. Finally, we experimentally concluded that machine learning methods work better than empirical methods and XGBoost model can have better performance in this problem among other implemented.
翻訳日:2024-01-23 16:20:45 公開日:2024-01-21
# attentionlego: プロセッシング・イン・メモリ技術を用いた空間スカラー大言語モデルアクセラレーションのためのオープンソースビルディングブロック

AttentionLego: An Open-Source Building Block For Spatially-Scalable Large Language Model Accelerator With Processing-In-Memory Technology ( http://arxiv.org/abs/2401.11459v1 )

ライセンス: Link先を確認
Rongqing Cong, Wenyang He, Mingxuan Li, Bangning Luo, Zebin Yang, Yuchao Yang, Ru Huang, Bonan Yan(参考訳) トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)は、自然言語処理、マルチモーダル生成人工知能、エージェント指向人工知能において驚くべきものとなっている。 セルフアテンションモジュールはトランスフォーマーベースのllmの中で最も支配的なサブ構造である。 汎用グラフィックス処理ユニット(GPU)を用いた計算は、メモリと処理ユニット間で中間計算結果を転送するI/O帯域に対する無謀な要求を生じさせる。 この課題に取り組むため、本研究では空間拡張可能なllmプロセッサを構築するための基本構築ブロックとして、完全にカスタマイズされたバニラセルフアテンションアクセラレータである attentionlego を開発した。 AttentionLegoは、Processing-In-Memory (PIM)技術を取り入れた、完全にカスタマイズされたデジタルロジックの基本的な実装を提供する。 PIMベースの行列ベクトル乗算とルックアップテーブルベースのSoftmax設計に基づいている。 オープンソースコードは、https://bonany.cc/attentionleg.com/。

Large language models (LLMs) with Transformer architectures have become phenomenal in natural language processing, multimodal generative artificial intelligence, and agent-oriented artificial intelligence. The self-attention module is the most dominating sub-structure inside Transformer-based LLMs. Computation using general-purpose graphics processing units (GPUs) inflicts reckless demand for I/O bandwidth for transferring intermediate calculation results between memories and processing units. To tackle this challenge, this work develops a fully customized vanilla self-attention accelerator, AttentionLego, as the basic building block for constructing spatially expandable LLM processors. AttentionLego provides basic implementation with fully-customized digital logic incorporating Processing-In-Memory (PIM) technology. It is based on PIM-based matrix-vector multiplication and look-up table-based Softmax design. The open-source code is available online: https://bonany.cc/attentionleg.
翻訳日:2024-01-23 16:20:22 公開日:2024-01-21
# リニアアライメント: 調整やフィードバックを伴わない人間の選好調整のためのクローズドフォームソリューション

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback ( http://arxiv.org/abs/2401.11458v1 )

ライセンス: Link先を確認
Songyang Gao, Qiming Ge, Wei Shen, Shihan Dou, Junjie Ye, Xiao Wang, Rui Zheng, Yicheng Zou, Zhi Chen, Hang Yan, Qi Zhang, Dahua Lin(参考訳) 言語モデル(LLM)に基づくAIアシスタントの成功は、人間のフィードバックからの強化学習(RLHF)に基づいて、ユーザの意図を理解し、一致させる。 しかしながら、PPOのような従来のアライメントアルゴリズムは、複雑なアノテーションとトレーニング要件によって妨げられている。 この依存はRLHFの適用性を制限し、多様な人間の好みに合わせて調整されたプロフェッショナルアシスタントの開発を妨げる。 本研究では,1つの推論ステップで言語モデルと人間の嗜好を一致させる新しいアルゴリズムである「textit{Linear Alignment}」を導入し,データアノテーションやモデルトレーニングへの依存を排除した。 線形アライメントは、分岐制約の下でのポリシー最適化のための新しいパラメータ化を取り入れ、最適ポリシーをクローズド形式で抽出し、アライメントされた応答の直接推定を容易にする。 汎用的およびパーソナライズされた嗜好データセットの広範な実験により、線形アライメントは様々なシナリオにおけるLLMアライメントの性能と効率を大幅に向上させることが示された。 コードとデータセットは \url{https://github.com/Wizardcoast/Linear_Alignment.git} で公開されます。

The success of AI assistants based on Language Models (LLMs) hinges on Reinforcement Learning from Human Feedback (RLHF) to comprehend and align with user intentions. However, traditional alignment algorithms, such as PPO, are hampered by complex annotation and training requirements. This reliance limits the applicability of RLHF and hinders the development of professional assistants tailored to diverse human preferences. In this work, we introduce \textit{Linear Alignment}, a novel algorithm that aligns language models with human preferences in one single inference step, eliminating the reliance on data annotation and model training. Linear alignment incorporates a new parameterization for policy optimization under divergence constraints, which enables the extraction of optimal policy in a closed-form manner and facilitates the direct estimation of the aligned response. Extensive experiments on both general and personalized preference datasets demonstrate that linear alignment significantly enhances the performance and efficiency of LLM alignment across diverse scenarios. Our code and dataset will be published on \url{https://github.com/Wizardcoast/Linear_Alignment.git}.
翻訳日:2024-01-23 16:20:07 公開日:2024-01-21
# 半教師付きドメイン適応のためのドメイン間混合

Inter-Domain Mixup for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2401.11453v1 )

ライセンス: Link先を確認
Jichang Li, Guanbin Li, Yizhou Yu(参考訳) semi-supervised domain adaptation (ssda) はソースとターゲットのドメインディストリビューションを橋渡しすることを目的としており、少数のターゲットラベルが利用可能であり、unsupervised domain adaptation (uda) よりも優れた分類性能を達成している。 しかし、既存のSSDAの作業では、ソースドメインとターゲットドメインの両方からラベル情報をフルに活用できず、結果としてモデルテスト中にラベル空間のラベルミスマッチが発生する。 本稿では,新しいSSDA手法であるIDMNE(Inter-domain Mixup with Neighborhood Expansion)を提案する。 まず,ラベル情報をモデル適応に組み込むクロスドメイン機能アライメント戦略であるinter-domain mixupを導入する。 具体的には、サンプルレベルおよび多様体レベルのデータ混合を用いて、互換性のあるトレーニングサンプルを生成する。 これらの新たに確立されたサンプルは、信頼できるラベル情報と実際のラベル情報を組み合わせることで、ドメイン間の多様性と互換性を示すと同時に、ドメイン間の機能アライメントを容易にし、ラベルミスマッチを緩和する。 さらに,対象領域における信頼度の高い疑似ラベル標本の活用や,対象領域のラベル情報の多様化,適応モデルのさらなる性能向上にも,近傍展開を利用する。 そのため、提案手法は既存の最先端手法よりも優れており、DomainNet、Office-Home、Office-31など、一般的なSSDAベンチマークで大幅に精度が向上している。

Semi-supervised domain adaptation (SSDA) aims to bridge source and target domain distributions, with a small number of target labels available, achieving better classification performance than unsupervised domain adaptation (UDA). However, existing SSDA work fails to make full use of label information from both source and target domains for feature alignment across domains, resulting in label mismatch in the label space during model testing. This paper presents a novel SSDA approach, Inter-domain Mixup with Neighborhood Expansion (IDMNE), to tackle this issue. Firstly, we introduce a cross-domain feature alignment strategy, Inter-domain Mixup, that incorporates label information into model adaptation. Specifically, we employ sample-level and manifold-level data mixing to generate compatible training samples. These newly established samples, combined with reliable and actual label information, display diversity and compatibility across domains, while such extra supervision thus facilitates cross-domain feature alignment and mitigates label mismatch. Additionally, we utilize Neighborhood Expansion to leverage high-confidence pseudo-labeled samples in the target domain, diversifying the label information of the target domain and thereby further increasing the performance of the adaptation model. Accordingly, the proposed approach outperforms existing state-of-the-art methods, achieving significant accuracy improvements on popular SSDA benchmarks, including DomainNet, Office-Home, and Office-31.
翻訳日:2024-01-23 16:19:48 公開日:2024-01-21
# 信頼とファクチュアルな応答生成に向けて:情報探索会話における疑問発見

Towards Reliable and Factual Response Generation: Detecting Unanswerable Questions in Information-Seeking Conversations ( http://arxiv.org/abs/2401.11452v1 )

ライセンス: Link先を確認
Weronika {\L}ajewska, Krisztian Balog(参考訳) 生成aiモデルは、そのようなシステムに対するユーザの信頼を損なう幻覚という課題に直面している。 本稿では,まずコーパス内の関連するパスを識別し,最後にシステム応答にまとめる2段階のプロセスとして会話情報探索の問題にアプローチする。 このようにして、ユーザの質問に対する回答がコーパスに存在するかどうかを自動的に評価できる。 特に,提案手法では文レベルの分類器を用いて解が存在するかどうかを判定し,それらの予測を通過レベルに集約し,最終的に最上位の節にまたがって最終回答率推定に到達させる。 トレーニングと評価のために, TREC CAsTベンチマークに基づいて, 文, 通過, ランキングの回答可能性ラベルを含むデータセットを開発する。 本研究では,提案手法が強いベースラインを示し,応答性予測タスクにおいて最先端のllmを上回っていることを示す。

Generative AI models face the challenge of hallucinations that can undermine users' trust in such systems. We approach the problem of conversational information seeking as a two-step process, where relevant passages in a corpus are identified first and then summarized into a final system response. This way we can automatically assess if the answer to the user's question is present in the corpus. Specifically, our proposed method employs a sentence-level classifier to detect if the answer is present, then aggregates these predictions on the passage level, and eventually across the top-ranked passages to arrive at a final answerability estimate. For training and evaluation, we develop a dataset based on the TREC CAsT benchmark that includes answerability labels on the sentence, passage, and ranking levels. We demonstrate that our proposed method represents a strong baseline and outperforms a state-of-the-art LLM on the answerability prediction task.
翻訳日:2024-01-23 16:19:22 公開日:2024-01-21
# 半監督領域適応のための適応的相互性クラスタリング

Adaptive Betweenness Clustering for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2401.11448v1 )

ライセンス: Link先を確認
Jichang Li, Guanbin Li, Yizhou Yu(参考訳) 教師なしドメイン適応と比較して、半教師付きドメイン適応(SSDA)は、ターゲットドメインからの少量のラベル付きデータの存在を利用して、モデルの分類性能と一般化能力を大幅に向上することを目的としている。 ドメイン間のラベル付き(または擬似ラベル付き)サンプル間のセマンティクスアライメントを可能にするために、いくつかのssmaアプローチが開発されているが、ターゲットドメインのセマンティクスラベル情報が不足しているため、彼らはその可能性を十分に実現できなかった。 本研究では,ソース領域とターゲット領域の両方のラベル付きデータからラベル付き対象サンプルへの意味的伝達を制御し,クロスドメインな意味的アライメントを可能にする,カテゴリ的ドメインアライメントを実現するためのグラフベース適応的中間性クラスタリング(g-abc)という新しいsssa手法を提案する。 特に、ヘテロジニアスグラフは、まず、両方の領域からラベル付きサンプルと対象領域のラベル付きサンプルの間のペアワイズ関係を反映して構築される。 次に、グラフ内のノイズの多い接続性を低下させるために、信頼不確実性に基づくノード削除と予測異性に基づくエッジプルーニングという2つの戦略を導入することで、接続性の向上を行う。 グラフが洗練されると、アダプティブ・インターフェクション・クラスタリング(adaptive betweenness clustering)が導入され、ドメイン間インターフェクション・クラスタリングとドメイン内インターフェクト・クラスタリング(intra-domain between clustering)を使用して意味的転送が容易になり、それによってラベル付きサンプルからラベル付き対象データへの意味的ラベル情報を伝播する。 DomainNet, Office-Home, Office-31という3つの標準ベンチマークデータセットに対する大規模な実験により,提案手法は従来のSSDA手法よりも優れており,提案したG-ABCアルゴリズムの優位性を示している。

Compared to unsupervised domain adaptation, semi-supervised domain adaptation (SSDA) aims to significantly improve the classification performance and generalization capability of the model by leveraging the presence of a small amount of labeled data from the target domain. Several SSDA approaches have been developed to enable semantic-aligned feature confusion between labeled (or pseudo labeled) samples across domains; nevertheless, owing to the scarcity of semantic label information of the target domain, they were arduous to fully realize their potential. In this study, we propose a novel SSDA approach named Graph-based Adaptive Betweenness Clustering (G-ABC) for achieving categorical domain alignment, which enables cross-domain semantic alignment by mandating semantic transfer from labeled data of both the source and target domains to unlabeled target samples. In particular, a heterogeneous graph is initially constructed to reflect the pairwise relationships between labeled samples from both domains and unlabeled ones of the target domain. Then, to degrade the noisy connectivity in the graph, connectivity refinement is conducted by introducing two strategies, namely Confidence Uncertainty based Node Removal and Prediction Dissimilarity based Edge Pruning. Once the graph has been refined, Adaptive Betweenness Clustering is introduced to facilitate semantic transfer by using across-domain betweenness clustering and within-domain betweenness clustering, thereby propagating semantic label information from labeled samples across domains to unlabeled target data. Extensive experiments on three standard benchmark datasets, namely DomainNet, Office-Home, and Office-31, indicated that our method outperforms previous state-of-the-art SSDA approaches, demonstrating the superiority of the proposed G-ABC algorithm.
翻訳日:2024-01-23 16:19:08 公開日:2024-01-21
# アレルギー性鼻炎に対する皮下免疫療法の適応予測モデル

Sequential Model for Predicting Patient Adherence in Subcutaneous Immunotherapy for Allergic Rhinitis ( http://arxiv.org/abs/2401.11447v1 )

ライセンス: Link先を確認
Li Yin, Xiong Yu, Fan Wenxin, Wang Kai, Yu Qingqing, Si Liping, van der Smagt Patrick, Tang Jun, and Chen Nutan(参考訳) 目的: 皮下免疫療法 (SCIT) はアレルギー性鼻炎の長期治療である。 アレルゲン免疫療法(AIT)の利益を最大化するために患者の定着を高める方法は、AITの管理において重要な役割を果たす。 本研究は,新規機械学習モデルを用いて患者の非整合性のリスクを正確に予測し,長期AIT管理における新たなアプローチを提供することを目的とする。 方法: 本研究は, 逐次潜在アクタークリティカル(SLAC)とLong Short-Term Memory(LSTM)の2つのモデルを開発し, 評価する。 結果: 最初の段階でバイアスのあるサンプルを除くと、slacモデルの予測準拠精度は60\,\%$から72\%$であり、lstmモデルの場合、時間ステップに応じて6,6\,\%$から8,4\,\%$である。 SLACモデルのRoot Mean Square Error(RMSE)の範囲は0.93ドルから2.22ドル、LSTMモデルでは1.09ドルから1.77ドルである。 特に、これらのRMSEは4.55ドルというランダムな予測誤差よりもかなり低い。 結論: アレルギー性鼻炎 (AR) 患者のSCIT非アドヒアランス予測において, SCITの長期管理に有意な精度で逐次モデルを適用した。 LSTMは順応予測においてSLACより優れ、SLACはSCIT for ARの患者に対してスコア予測に優れる。 状態アクションベースのSLACは柔軟性を追加し、長期AITを管理するための新しく効果的なアプローチを提供する。

Objective: Subcutaneous Immunotherapy (SCIT) is the long-lasting causal treatment of allergic rhinitis. How to enhance the adherence of patients to maximize the benefit of allergen immunotherapy (AIT) plays a crucial role in the management of AIT. This study aims to leverage novel machine learning models to precisely predict the risk of non-adherence of patients and related systematic symptom scores, to provide a novel approach in the management of long-term AIT. Methods: The research develops and analyzes two models, Sequential Latent Actor-Critic (SLAC) and Long Short-Term Memory (LSTM), evaluating them based on scoring and adherence prediction capabilities. Results: Excluding the biased samples at the first time step, the predictive adherence accuracy of the SLAC models is from $60\,\%$ to $72\%$, and for LSTM models, it is $66\,\%$ to $84\,\%$, varying according to the time steps. The range of Root Mean Square Error (RMSE) for SLAC models is between $0.93$ and $2.22$, while for LSTM models it is between $1.09$ and $1.77$. Notably, these RMSEs are significantly lower than the random prediction error of $4.55$. Conclusion: We creatively apply sequential models in the long-term management of SCIT with promising accuracy in the prediction of SCIT nonadherence in Allergic Rhinitis (AR) patients. While LSTM outperforms SLAC in adherence prediction, SLAC excels in score prediction for patients undergoing SCIT for AR. The state-action-based SLAC adds flexibility, presenting a novel and effective approach for managing long-term AIT.
翻訳日:2024-01-23 16:18:33 公開日:2024-01-21
# 雑音のある確率帯域に対するトンプソンサンプリング:情報理論レグレット解析

Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis ( http://arxiv.org/abs/2401.11565v1 )

ライセンス: Link先を確認
Sharu Theresa Jose and Shana Moothedath(参考訳) エージェントが未知のノイズパラメータを持つノイズチャネルを介して真のコンテキストのノイズで破損したバージョンを観測する確率的文脈線形バンディット問題を検討する。 我々の目的は、報奨モデル、チャネルパラメータ、および観測されたノイズコンテキストから真コンテキストの予測分布にアクセス可能なオラクルの「近似可能なアクションポリシー」を設計することである。 ベイズ的枠組みでは,ガウス的文脈雑音を持つガウス的帯域に対するトンプソンサンプリングアルゴリズムを導入する。 情報理論的な分析を採用し、オラクルの行動ポリシーに関するアルゴリズムのベイズ的後悔を実証する。 この問題を,エージェントが報酬を受け取った後,何らかの遅延で真のコンテキストを観察し,遅延した真のコンテキストがベイズ人の後悔を減少させるというシナリオにまで拡張する。 最後に,提案するアルゴリズムのベースラインに対する性能を実証的に示す。

We explore a stochastic contextual linear bandit problem where the agent observes a noisy, corrupted version of the true context through a noise channel with an unknown noise parameter. Our objective is to design an action policy that can approximate" that of an oracle, which has access to the reward model, the channel parameter, and the predictive distribution of the true context from the observed noisy context. In a Bayesian framework, we introduce a Thompson sampling algorithm for Gaussian bandits with Gaussian context noise. Adopting an information-theoretic analysis, we demonstrate the Bayesian regret of our algorithm concerning the oracle's action policy. We also extend this problem to a scenario where the agent observes the true context with some delay after receiving the reward and show that delayed true contexts lead to lower Bayesian regret. Finally, we empirically demonstrate the performance of the proposed algorithms against baselines.
翻訳日:2024-01-23 16:11:40 公開日:2024-01-21
# 核シェルモデルの励起状態に対する量子エンハンスグリーン関数モンテカルロ

Quantum-enhanced Green's function Monte Carlo for excited states of nuclear shell model ( http://arxiv.org/abs/2401.11521v1 )

ライセンス: Link先を確認
Yongdan Yang, Ruyu Yang, Xiaosi Xu(参考訳) 本稿では,核シェルモデルの励起状態推定のためのハイブリッド量子古典グリーン関数モンテカルロ(gfmc)アルゴリズムを提案する。 従来のgfmc法は量子多体系の基底状態を見つけるのに広く用いられており、符号問題に苦しめられており、システムサイズと進化時間の増大に伴って指数関数的にばらつきが増加する。 この問題は典型的には古典的な制約を適用することで緩和されるが、バイアスを導入するコストがかかる。 提案手法では,量子コンピュータ上の量子部分空間対角化(QSD)を用いて量子トライアル状態を作成し,GFMCプロセスの古典的トライアル状態を置き換える。 また,量子資源利用を最適化するために,qsdの実装に改良された古典的なシャドー手法も取り入れた。 さらに、我々のハイブリッドGFMCアルゴリズムを拡張して、与えられた量子系の励起状態を求める。 計算結果から,本手法は励起状態エネルギーの決定精度を大幅に向上させ,従来の手法よりも改善した。

We present a hybrid quantum-classical Green's function Monte Carlo (GFMC) algorithm for estimating the excited states of the nuclear shell model. The conventional GFMC method, widely used to find the ground state of a quantum many-body system, is plagued by the sign problem, which leads to an exponentially increasing variance with the growth of system size and evolution time. This issue is typically mitigated by applying classical constraints but at the cost of introducing bias. Our approach uses quantum subspace diagonalization (QSD) on a quantum computer to prepare a quantum trial state, replacing the classical trial state in the GFMC process. We also incorporated a modified classical shadow technique in the implementation of QSD to optimize quantum resource utilization. Besides, we extend our hybrid GFMC algorithm to find the excited states of a given quantum system. Numerical results suggest our method largely enhances accuracy in determining excited state energies, offering an improvement over the conventional method.
翻訳日:2024-01-23 16:11:25 公開日:2024-01-21
# cabuar: カリフォルニアで燃え尽きたエリアのデータセット

CaBuAr: California Burned Areas dataset for delineation ( http://arxiv.org/abs/2401.11519v1 )

ライセンス: Link先を確認
Daniele Rege Cambrin, Luca Colomba, Paolo Garza(参考訳) 森林火災は、過去数十年で環境や人道的被害をもたらした壊滅的な出来事の1つだ。 大量の二酸化炭素排出量に加えて、短期的(例えば火災による一時的な避難)と長期的(例えば地すべりのリスクの高い)の双方において社会にとってリスクの源となっている。 したがって、地域当局が自動的に燃えている地域を識別するツールが利用できることは、そのような壊滅的な出来事の余波を緩和するための継続的な監視要件において重要な役割を担っている。 コンピュータビジョン技術と組み合わされた衛星の取得は、そのようなツールを開発する上で重要なステップである。 本稿では,衛星画像に適用される2値セグメンテーション問題である燃え尽き領域分割問題に対処する,新しいオープンデータセットを提案する。 提示された資料は、2015年に開始されたカリフォルニア州森林火災の前と後のSentinel-2 L2Aによる買収から成り立っている。 ラスターアノテーションは、カリフォルニア州森林消防局が公表したデータから作成された。 さらに,データセットと連携して,スペクトル指標分析,segformer,u-netモデルに基づく3種類のベースラインをリリースする。

Forest wildfires represent one of the catastrophic events that, over the last decades, caused huge environmental and humanitarian damages. In addition to a significant amount of carbon dioxide emission, they are a source of risk to society in both short-term (e.g., temporary city evacuation due to fire) and long-term (e.g., higher risks of landslides) cases. Consequently, the availability of tools to support local authorities in automatically identifying burned areas plays an important role in the continuous monitoring requirement to alleviate the aftereffects of such catastrophic events. The great availability of satellite acquisitions coupled with computer vision techniques represents an important step in developing such tools. This paper introduces a novel open dataset that tackles the burned area delineation problem, a binary segmentation problem applied to satellite imagery. The presented resource consists of pre- and post-fire Sentinel-2 L2A acquisitions of California forest fires that took place starting in 2015. Raster annotations were generated from the data released by California's Department of Forestry and Fire Protection. Moreover, in conjunction with the dataset, we release three different baselines based on spectral indexes analyses, SegFormer, and U-Net models.
翻訳日:2024-01-23 16:11:09 公開日:2024-01-21
# 機械学習による理論景観の真実と美しさの探求

Exploring the Truth and Beauty of Theory Landscapes with Machine Learning ( http://arxiv.org/abs/2401.11513v1 )

ライセンス: Link先を確認
Konstantin T. Matchev, Katia Matcheva, Pierre Ramond, Sarunas Verner(参考訳) 理論物理学者は自然を 一 理論モデルを構築して 二 モデルパラメータを決定すること。 後者のステップは、既存の実験データに適合し、美や自然性などの抽象的な基準を満たすという2つの側面を含む。 おもちゃの例として湯川クォークセクタを使って、これら2つのタスクが機械学習技術でどのように達成できるかを実証します。 本研究では,3つの異なる基準一様性,スパース性,対称性によって測定される真のモデルが最小化される損失関数を提案する。

Theoretical physicists describe nature by i) building a theory model and ii) determining the model parameters. The latter step involves the dual aspect of both fitting to the existing experimental data and satisfying abstract criteria like beauty, naturalness, etc. We use the Yukawa quark sector as a toy example to demonstrate how both of those tasks can be accomplished with machine learning techniques. We propose loss functions whose minimization results in true models that are also beautiful as measured by three different criteria - uniformity, sparsity, or symmetry.
翻訳日:2024-01-23 16:10:50 公開日:2024-01-21
# 強化学習のための情報理論状態変数選択

Information-Theoretic State Variable Selection for Reinforcement Learning ( http://arxiv.org/abs/2401.11512v1 )

ライセンス: Link先を確認
Charles Westphal, Stephen Hailes, Mirco Musolesi(参考訳) 状態を表すのに最も適した変数を特定することは、強化学習(RL)における根本的な課題である。 これらの変数は最適な決定を行うのに必要な情報を効率的に取得する必要がある。 この問題に対処するため,本稿では,状態変数からトレーニング中の動作への「textit{entropy transfer}」が存在するかどうかを判定する情報理論的基準であるTransfer Entropy Redundancy Criterion(TERC)を導入する。 我々は,TERCに基づくアルゴリズムを定義し,エージェントの最終的な性能に影響を与えない状態から変数を確実に排除し,よりサンプル効率のよい学習を実現する。 実験結果から, このスピードアップは, 様々な環境における3種類のアルゴリズムクラス(表型Q-learning, Actor-Critic, Proximal Policy Optimization (PPO) で表される)にまたがることを示した。 さらに,提案手法と現状の特徴選択手法の違いを強調するために,実世界の意思決定タスクに一般化する前に,合成データに関する一連の制御実験を行う。 また,状態変数から行動への情報伝達をベイズネットワークとしてコンパクトに捉えた問題の表現も導入する。

Identifying the most suitable variables to represent the state is a fundamental challenge in Reinforcement Learning (RL). These variables must efficiently capture the information necessary for making optimal decisions. In order to address this problem, in this paper, we introduce the Transfer Entropy Redundancy Criterion (TERC), an information-theoretic criterion, which determines if there is \textit{entropy transferred} from state variables to actions during training. We define an algorithm based on TERC that provably excludes variables from the state that have no effect on the final performance of the agent, resulting in more sample efficient learning. Experimental results show that this speed-up is present across three different algorithm classes (represented by tabular Q-learning, Actor-Critic, and Proximal Policy Optimization (PPO)) in a variety of environments. Furthermore, to highlight the differences between the proposed methodology and the current state-of-the-art feature selection approaches, we present a series of controlled experiments on synthetic data, before generalizing to real-world decision-making tasks. We also introduce a representation of the problem that compactly captures the transfer of information from state variables to actions as Bayesian networks.
翻訳日:2024-01-23 16:10:41 公開日:2024-01-21
# MobileARLoc: 広汎なマーカーレスモバイルARのためのオンデバイスロバスト絶対的位置決め

MobileARLoc: On-device Robust Absolute Localisation for Pervasive Markerless Mobile AR ( http://arxiv.org/abs/2401.11511v1 )

ライセンス: Link先を確認
Changkun Liu, Yukun Zhao, Tristan Braud(参考訳) 近年、絶対カメラのポーズ推定が大幅に改善され、AR(Pervasive markerless Augmented Reality)への道が開かれた。 しかしながら、正確な絶対ポーズ推定技術は計算量とストレージ量であり、計算オフロードを必要とする。 そのため、ARシステムは、サーバへの要求間の相対的なポーズを追跡するために、視覚慣性オドメトリー(VIO)に依存している。 しかし、VIOは漂流に悩まされ、しばしば絶対的な再配置を必要とする。 本稿では,絶対ポーズレグレッサ(apr)とローカルvioトラッキングシステムを組み合わせた,オンデバイス用大規模マーカーレスモバイルarのための新しいフレームワークであるmobilearlocを紹介する。 absolute pose regressor (aprs)は、精度を低下させるコストで、デバイス上でのポーズ推定を高速に行う。 APRの精度に対処し、VIOドリフトを減らすために、MobileARLocはフィードバックループを生成し、VIOのポーズ推定によってAPR予測が洗練される。 VIOシステムは、VIOドリフトを補うために使用されるAPRの信頼性の高い予測を識別する。 データセットシミュレーションによりMobileARLocを総合的に評価する。 MobileARLocは、基盤となるAPRと比較してエラーを半減し、デバイス上の推論速度を高速(80\,ms)にする。

Recent years have seen significant improvement in absolute camera pose estimation, paving the way for pervasive markerless Augmented Reality (AR). However, accurate absolute pose estimation techniques are computation- and storage-heavy, requiring computation offloading. As such, AR systems rely on visual-inertial odometry (VIO) to track the device's relative pose between requests to the server. However, VIO suffers from drift, requiring frequent absolute repositioning. This paper introduces MobileARLoc, a new framework for on-device large-scale markerless mobile AR that combines an absolute pose regressor (APR) with a local VIO tracking system. Absolute pose regressors (APRs) provide fast on-device pose estimation at the cost of reduced accuracy. To address APR accuracy and reduce VIO drift, MobileARLoc creates a feedback loop where VIO pose estimations refine the APR predictions. The VIO system identifies reliable predictions of APR, which are then used to compensate for the VIO drift. We comprehensively evaluate MobileARLoc through dataset simulations. MobileARLoc halves the error compared to the underlying APR and achieve fast (80\,ms) on-device inference speed.
翻訳日:2024-01-23 16:10:18 公開日:2024-01-21
# 捕捉イオン系における位相超伝導体とそのフロッケ工学

Topological superconductors in trapped-ion system and their Floquet engineering ( http://arxiv.org/abs/2401.11510v1 )

ライセンス: Link先を確認
Ming-Jian Gao, Yu-Peng Ma, Jun-Hong An(参考訳) 非アベリア統計によらず、マヨラナフェルミオンはトポロジカル量子コンピューティングを実装することを約束している。 マヨラナフェルミオンは、磁場下で$s$-wave超伝導体と相互作用する強いスピン軌道結合を持つ半導電性ナノワイヤのゼロエネルギー励起によってシミュレートできることがわかった。 本稿では,捕捉イオン系におけるマヨラナフェルミオンをシミュレートする代替手法を提案する。 我々の誘電化イオン構成により、マヨラナモードはゼロエネルギーだけでなく、ゼロエネルギーでも生成できる。 また,Floquet EngineeringによるMajoranaモードの制御性についても検討した。 トポロジカルに自明なイオン系に周期運転を施すことにより、需要に応じて広く調整可能なマヨラナモードが生成される。 マヨラナフェルミオンをシミュレートするプラットフォームを充実させることで、トポロジカル量子コンピューティングを実現するための新たな道が開かれる。

Obeying non-Abelian statistics, Majorana fermion holds a promise to implement topological quantum computing. It was found that Majorana fermion can be simulated by the zero-energy excitation in a semiconducting nanowire with strong spin-orbit coupling interacting with a $s$-wave superconductor under a magnetic field. We here propose an alternative scheme to simulate the Majorana fermion in a trapped-ion system. Our dimitrized-ion configuration permits us to generate the Majorana modes not only at zero energy but also at the nonzero ones. We also investigate the controllability of the Majorana modes by Floquet engineering. It is found that a widely tunable number of Majorana modes are created on demand by applying a periodic driving on a topologically trivial trapped-ion system. Enriching the platforms for simulating Majorana fermion, our result would open another avenue for realizing topological quantum computing.
翻訳日:2024-01-23 16:09:57 公開日:2024-01-21
# 大規模言語モデルによる勧告の多様性向上

Enhancing Recommendation Diversity by Re-ranking with Large Language Models ( http://arxiv.org/abs/2401.11506v1 )

ライセンス: Link先を確認
Diego Carraro and Derek Bridge(参考訳) Recommender System(RS)がユーザとの関係性のみに基づいてレコメンデーションを提供するのに十分ではないと長年認識されてきた。 他の多くの基準の中で、不確実性に対処し有意義な選択を提供するために、推奨のセットは多様である必要がある。 この文献は、より大規模な推薦候補の再選と選択によって、一連の推薦の多様性を改善するための多様性と方法を測定する多くの方法を報告している。 本稿では,多目的言語モデル(LLM)をRSパイプラインに組み込む方法について,文献から有望な知見を得られた上で,LLMが多様性の再評価にどのように使用できるかを示す。 まず、LCMがタスクの再ランク付けに使用でき、多様性の概念をある程度理解できるという非公式な研究から始めます。 次に,様々なプロンプトテンプレートを用いて候補ランキングから,ゼロショット方式で,llmが多種多様なランキングを生成するための,より厳密な手法を考案する。 我々はGPTファミリーとLlamaファミリーから最先端の会話型LLMをテストする総合実験を行った。 文献(MMR, xQuAD, RxQuAD)から、それらの再ランク機能と、ランダムな再ランク機能と、さまざまな従来手法との比較を行った。 LLMベースの再ランク付けは、使用するすべてのメトリクスでランダムに再ランク付けされるが、従来の再ランク付け方法と同等に機能しない。 我々は、このタスクの迅速な設計に関する洞察を得る(例えば、全体としては、多様性と妥当性のバランスよりも多様性の促進の方がよい)。 専門知識工学は必要ないので,LLMをベースとした再ランク付けは有望なアプローチであり,今後の研究の方向性を強調している。 再現性のための実験のコードをオープンソースにしています。

It has long been recognized that it is not enough for a Recommender System (RS) to provide recommendations based only on their relevance to users. Among many other criteria, the set of recommendations may need to be diverse in order to handle uncertainty and offer a meaningful choice. The literature reports many ways of measuring diversity and ways of improving the diversity of a set of recommendations, most notably by re-ranking and selecting from a larger set of candidate recommendations. Driven by promising insights from the literature on how to incorporate versatile Large Language Models (LLMs) into the RS pipeline, in this paper, we show how LLMs can be used for diversity re-ranking. We begin with an informal study that verifies that LLMs can be used for re-ranking tasks and do have some understanding of the concept of diversity. Then, we design a more rigorous methodology where LLMs are prompted to generate a diverse ranking from a candidate ranking using various prompt templates with different re-ranking instructions in a zero-shot fashion. We conduct comprehensive experiments testing state-of-the-art conversational LLMs from the GPT and Llama families. We compare their re-ranking capabilities with random re-ranking and various traditional re-ranking methods from the literature (MMR, xQuAD and RxQuAD). We find that LLM-based re-ranking outperforms random re-ranking across all the metrics that we use but does not perform as well as the traditional re-ranking methods. We gain insight into prompt design for this task (e.g.\ on the whole, it is better to prompt for diversity rather than a balance of diversity and relevance). Given that no special knowledge engineering is needed, we conclude that LLM-based re-ranking is a promising approach, and we highlight directions for future research. We open-source the code of our experiments for reproducibility.
翻訳日:2024-01-23 16:09:42 公開日:2024-01-21
# CheX-GPT: 胸部X線レポートラベリングのための大規模言語モデル

CheX-GPT: Harnessing Large Language Models for Enhanced Chest X-ray Report Labeling ( http://arxiv.org/abs/2401.11505v1 )

ライセンス: Link先を確認
Jawook Gu, Han-Cheol Cho, Jiho Kim, Kihyun You, Eun Kyoung Hong, Byungseok Roh(参考訳) 自由テキストラジオロジーレポートは、様々な医療タスクのための豊富なデータソースを提供するが、これらのテキストを効果的にラベル付けすることは依然として困難である。 従来のルールベースのラベリング手法は、多様な自由テキストパターンのニュアンスをキャプチャできない。 さらに、エキスパートアノテートデータを使用するモデルは、データ不足や事前定義されたクラスによって制限され、パフォーマンス、柔軟性、スケーラビリティに影響を及ぼす。 これらの課題に対処するため、本研究は3つの主要な貢献をしている。 1) 慎重に設計したプロンプトを用いて, GPT のアデプトラベル化の可能性を示す。 2) GPTでラベル付けされたデータのみを利用することで,GPTよりも高速かつ効率的に動作するBERTベースのラベラであるCheX-GPTを訓練した。 3) ラベルラー性能のベンチマークを行うため,MIMIC検証セットから500ケースを収録したMIMIC-500を一般公開した。 この結果から,chex-gptは既存のモデルよりも精度に優れるだけでなく,ロバストなベンチマークのためのmime-500データセットの導入により,効率,柔軟性,スケーラビリティに優れることが示された。 コードとモデルはhttps://github.com/kakaobrain/chexgptで入手できる。

Free-text radiology reports present a rich data source for various medical tasks, but effectively labeling these texts remains challenging. Traditional rule-based labeling methods fall short of capturing the nuances of diverse free-text patterns. Moreover, models using expert-annotated data are limited by data scarcity and pre-defined classes, impacting their performance, flexibility and scalability. To address these issues, our study offers three main contributions: 1) We demonstrate the potential of GPT as an adept labeler using carefully designed prompts. 2) Utilizing only the data labeled by GPT, we trained a BERT-based labeler, CheX-GPT, which operates faster and more efficiently than its GPT counterpart. 3) To benchmark labeler performance, we introduced a publicly available expert-annotated test set, MIMIC-500, comprising 500 cases from the MIMIC validation set. Our findings demonstrate that CheX-GPT not only excels in labeling accuracy over existing models, but also showcases superior efficiency, flexibility, and scalability, supported by our introduction of the MIMIC-500 dataset for robust benchmarking. Code and models are available at https://github.com/kakaobrain/CheXGPT.
翻訳日:2024-01-23 16:09:12 公開日:2024-01-21
# テキストの長文生成を支援する推論時間トレーニング

With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation ( http://arxiv.org/abs/2401.11504v1 )

ライセンス: Link先を確認
Y. Wang, D. Ma, D. Cai(参考訳) 長文生成、例えば、非常に長い文脈を持つ談話レベルの翻訳は、現在の言語モデルに重大な課題をもたらす。 既存のメソッドは主に、長さ外挿のような戦略を通してモデルのコンテキストウィンドウを拡張することに重点を置いている。 しかし、これらのアプローチはトレーニングおよび/または推論フェーズの間にかなりのハードウェアリソースを必要とする。 提案手法であるTemp-Loraは代替概念を提案する。 すべてのコンテキスト情報を格納するためにKVキャッシュに頼る代わりに、Temp-Loraはこの情報をモデルのパラメータに直接埋め込む。 長いテキスト生成の過程では、以前生成されたテキストで徐々に訓練された一時的なloraモジュールを使用する。 このアプローチは文脈的知識を効率的に保存するだけでなく、モジュールが後世代で破棄されたことを前提に、モデルパラメータの永続的な変更を防ぎます。 PG19言語モデリングベンチマークとGuoFeng談話レベル翻訳ベンチマークの大規模な実験により、Temp-Loraの有効性が検証された。 結果はこう示しています 1) temp-loraは、pg19のサブセットのパープレキシティが13.2%減少し、29.6%のパープレキシティが低下し、guofengのbleuスコアが53.2%上昇し、長文の生成品質が大幅に向上する。 2) Temp-Loraは、既存の長文生成方法と互換性があり、拡張されている。 3)Temp-Loraはコンテキストウィンドウを短くすることで計算コストを大幅に削減できる。 世代品質のわずかな改善(pplの3.8%の減少)を保証しながら、推論に必要なフロップの70.5%の削減とレイテンシの51.5%の削減が可能である。

Long text generation, such as novel writing or discourse-level translation with extremely long contexts, presents significant challenges to current language models. Existing methods mainly focus on extending the model's context window through strategies like length extrapolation. However, these approaches demand substantial hardware resources during the training and/or inference phases. Our proposed method, Temp-Lora, introduces an alternative concept. Instead of relying on the KV cache to store all context information, Temp-Lora embeds this information directly into the model's parameters. In the process of long text generation, we use a temporary Lora module, progressively trained with text generated previously. This approach not only efficiently preserves contextual knowledge but also prevents any permanent alteration to the model's parameters given that the module is discarded post-generation. Extensive experiments on the PG19 language modeling benchmark and the GuoFeng discourse-level translation benchmark validate the effectiveness of Temp-Lora. Our results show that: 1) Temp-Lora substantially enhances generation quality for long texts, as indicated by a 13.2% decrease in perplexity on a subset of PG19, and a 29.6% decrease in perplexity along with a 53.2% increase in BLEU score on GuoFeng, 2) Temp-Lora is compatible with and enhances most existing long text generation methods, and 3) Temp-Lora can greatly reduce computational costs by shortening the context window. While ensuring a slight improvement in generation quality (a decrease of 3.8% in PPL), it enables a reduction of 70.5% in the FLOPs required for inference and a 51.5% decrease in latency.
翻訳日:2024-01-23 16:08:50 公開日:2024-01-21
# 精密色合成のためのEHDポンプ制御における大規模言語モデルの統合

Integration of Large Language Models in Control of EHD Pumps for Precise Color Synthesis ( http://arxiv.org/abs/2401.11500v1 )

ライセンス: Link先を確認
Yanhong Peng, Ceng Zhang, Chenlong Hu, Zebing Mao(参考訳) 本稿では,Large Language Models (LLMs) とArduino制御のElectrohydrodynamic (EHD) ポンプを統合するための革新的な手法を提案する。 本稿では,自然言語コマンドを微調整で解釈し,EHDポンプ制御のための特定の操作命令に変換するフレームワークを提案する。 このアプローチは、複雑なハードウェアシステムとのユーザインタラクションを強化し、より直感的で効率的なものにすることを目指している。 色仕様と対応するarduinoコードのデータセットで言語モデルを微調整し、自然言語処理インターフェースを開発し、ユーザ入力を実行可能なarduinoコードに変換し、正確な色混合のためにehdポンプを制御する。 理論的仮定に基づく概念実験の結果, 正確な色合成, 効率的な言語モデル解釈, 信頼性の高いEHDポンプ動作の可能性が示唆された。 本研究は, 産業自動化・制御システムにおける LLM の適用範囲を, テキストベースタスクを超えて拡張するものである。 実世界のテストの必要性と限界を強調しながら、この研究は、物理的なシステム制御におけるAIアプリケーションのための新たな道を開き、AI駆動自動化技術の将来の進歩の基盤となる。

This paper presents an innovative approach to integrating Large Language Models (LLMs) with Arduino-controlled Electrohydrodynamic (EHD) pumps for precise color synthesis in automation systems. We propose a novel framework that employs fine-tuned LLMs to interpret natural language commands and convert them into specific operational instructions for EHD pump control. This approach aims to enhance user interaction with complex hardware systems, making it more intuitive and efficient. The methodology involves four key steps: fine-tuning the language model with a dataset of color specifications and corresponding Arduino code, developing a natural language processing interface, translating user inputs into executable Arduino code, and controlling EHD pumps for accurate color mixing. Conceptual experiment results, based on theoretical assumptions, indicate a high potential for accurate color synthesis, efficient language model interpretation, and reliable EHD pump operation. This research extends the application of LLMs beyond text-based tasks, demonstrating their potential in industrial automation and control systems. While highlighting the limitations and the need for real-world testing, this study opens new avenues for AI applications in physical system control and sets a foundation for future advancements in AI-driven automation technologies.
翻訳日:2024-01-23 16:08:24 公開日:2024-01-21
# クロスモーダル信号を用いた自己監督鳥眼球運動予測

Self-Supervised Bird's Eye View Motion Prediction with Cross-Modality Signals ( http://arxiv.org/abs/2401.11499v1 )

ライセンス: Link先を確認
Shaoheng Fang, Zuhong Liu, Mingyu Wang, Chenxin Xu, Yiqi Zhong, Siheng Chen(参考訳) 密集した鳥の目視(bev)の動きの流れを自己監督で学ぶことは、ロボット工学と自動運転の新たな研究だ。 現在の自己監督法は主に点雲間の点対応に依存しており、これは偽の流れと矛盾の問題を導入し、モデルが正確で現実的な動きを学習する能力を妨げている。 本稿では,マルチモダリティデータを利用して監督信号を得ることにより,これらの課題に効果的に対応する新しいクロスモダリティ自己教師付き学習フレームワークを提案する。 マスク付きチャンファー距離損失,ピースワイド剛性損失,時間的一貫性損失など,シーン動作の固有性を維持するために3つの革新的な監視信号を設計する。 より広範な実験により,提案する自己監督フレームワークは,動作予測タスクにおける従来の自己監督手法よりも優れていたことを示す。

Learning the dense bird's eye view (BEV) motion flow in a self-supervised manner is an emerging research for robotics and autonomous driving. Current self-supervised methods mainly rely on point correspondences between point clouds, which may introduce the problems of fake flow and inconsistency, hindering the model's ability to learn accurate and realistic motion. In this paper, we introduce a novel cross-modality self-supervised training framework that effectively addresses these issues by leveraging multi-modality data to obtain supervision signals. We design three innovative supervision signals to preserve the inherent properties of scene motion, including the masked Chamfer distance loss, the piecewise rigidity loss, and the temporal consistency loss. Through extensive experiments, we demonstrate that our proposed self-supervised framework outperforms all previous self-supervision methods for the motion prediction task.
翻訳日:2024-01-23 16:08:03 公開日:2024-01-21
# エッジ対応リアルタイム鉄道線路セグメンテーション

Edge-Enabled Real-time Railway Track Segmentation ( http://arxiv.org/abs/2401.11492v1 )

ライセンス: Link先を確認
Chen Chenglin, Wang Fei, Yang Min, Qin Yong, Bai Yun(参考訳) 高精度で高速の鉄道線路分節化は自動列車の運転を補助し、線路の固定あるいは移動障害に対する早期警戒の重要なステップである。 しかしながら、トラックセグメンテーションに適した既存のアルゴリズムは、リソース制約のあるエッジデバイスにおけるリアルタイムと効率の要求を満たすのに苦労することが多い。 この課題を考慮して,ネットワーク構造を最適化し,訓練後のモデルを定量化することにより,エッジアプリケーションに適したエッジ対応鉄道軌道分割アルゴリズムを提案する。 はじめにゴースト畳み込みを導入し、バックボーンの複雑さを低減し、興味のある領域のキー情報を低コストで抽出できるようにする。 モデルの複雑さと計算をより小さくするため,精度と効率のバランスを良くするために,新しい軽量検出ヘッドを提案する。 次に,モデルの浮動小数点重みと活性化値をより低いビット幅の不動小数点表現にマッピングする量子化手法を導入し,計算要求とメモリフットプリントを削減し,最終的にモデルの推論を加速する。 最後に,GPU並列プログラミングの原理からインスピレーションを得て,並列処理を行うことでアルゴリズムの前処理と後処理を高速化する。 このアプローチは、パブリックで挑戦的なデータセットRailSem19で評価され、Jetson Nanoでテストされている。 実験の結果,提案アルゴリズムは,入力サイズが480×480のとき,毎秒25フレームのリアルタイム推論を達成しつつ,83.3%の精度を達成し,リアルタイムかつ高効率な動作の要求を効果的に満たした。

Accurate and rapid railway track segmentation can assist automatic train driving and is a key step in early warning to fixed or moving obstacles on the railway track. However, certain existing algorithms tailored for track segmentation often struggle to meet the requirements of real-time and efficiency on resource-constrained edge devices. Considering this challenge, we propose an edge-enabled real-time railway track segmentation algorithm, which is optimized to be suitable for edge applications by optimizing the network structure and quantizing the model after training. Initially, Ghost convolution is introduced to reduce the complexity of the backbone, thereby achieving the extraction of key information of the interested region at a lower cost. To further reduce the model complexity and calculation, a new lightweight detection head is proposed to achieve the best balance between accuracy and efficiency. Subsequently, we introduce quantization techniques to map the model's floating-point weights and activation values into lower bit-width fixed-point representations, reducing computational demands and memory footprint, ultimately accelerating the model's inference. Finally, we draw inspiration from GPU parallel programming principles to expedite the pre-processing and post-processing stages of the algorithm by doing parallel processing. The approach is evaluated with public and challenging dataset RailSem19 and tested on Jetson Nano. Experimental results demonstrate that our enhanced algorithm achieves an accuracy level of 83.3% while achieving a real-time inference rate of 25 frames per second when the input size is 480x480, thereby effectively meeting the requirements for real-time and high-efficiency operation.
翻訳日:2024-01-23 16:07:46 公開日:2024-01-21
# MapChange: 深部トリプルトネットワークに基づく時間不変履歴マップによる意味的変化検出の強化

MapChange: Enhancing Semantic Change Detection with Temporal-Invariant Historical Maps Based on Deep Triplet Network ( http://arxiv.org/abs/2401.11489v1 )

ライセンス: Link先を確認
Yinhe Liu, Sunan Shi, Zhuo Zheng, Jue Wang, Shiqi Tian, Yanfei Zhong(参考訳) 画像解析の分野では,意味変化検出(scd)が重要かつ困難な課題として認識されている。 従来のSCDの手法は画像対の比較に大きく依存している。 しかし、このアプローチは撮影時間、大気条件、角度の変動によって生じる画像の違いによって著しく妨げられている。 このような不一致は、小さなが重要な変化の少ない検出と、時間的変動による誤報の発生という2つの主要な問題に繋がる。 これらの要因は、しばしば多時期画像で顕著に異なる変化した物体を生じさせる。 これらの課題に応えて、MapChangeフレームワークが開発された。 この枠組みは、時間不変の歴史的地図データを現代高解像度画像と相乗化する新しいパラダイムを導入している。 この組み合わせを用いることで、従来の画像対比較に固有の時間差を効果的に緩和する。 MapChangeフレームワークの有効性は、2つの公開データセットの包括的なテストを通じて実証的に検証されている。 これらのテストは、既存の最先端scdメソッドよりもフレームワークの顕著な優位性を示している。

Semantic Change Detection (SCD) is recognized as both a crucial and challenging task in the field of image analysis. Traditional methods for SCD have predominantly relied on the comparison of image pairs. However, this approach is significantly hindered by substantial imaging differences, which arise due to variations in shooting times, atmospheric conditions, and angles. Such discrepancies lead to two primary issues: the under-detection of minor yet significant changes, and the generation of false alarms due to temporal variances. These factors often result in unchanged objects appearing markedly different in multi-temporal images. In response to these challenges, the MapChange framework has been developed. This framework introduces a novel paradigm that synergizes temporal-invariant historical map data with contemporary high-resolution images. By employing this combination, the temporal variance inherent in conventional image pair comparisons is effectively mitigated. The efficacy of the MapChange framework has been empirically validated through comprehensive testing on two public datasets. These tests have demonstrated the framework's marked superiority over existing state-of-the-art SCD methods.
翻訳日:2024-01-23 16:07:07 公開日:2024-01-21
# HARDCORE:フェライトコアにおける残差拡張畳み込みニューラルネットワークを用いた任意の波形のH場と損失推定

HARDCORE: H-field and power loss estimation for arbitrary waveforms with residual, dilated convolutional neural networks in ferrite cores ( http://arxiv.org/abs/2401.11488v1 )

ライセンス: Link先を確認
Nikolas F\"orster, Wilhelm Kirchg\"assner, Till Piepenbrock, Oliver Schweins, Oliver Wallscheid(参考訳) マグネットチャレンジ2023は、トロイダルフェライトコアの定常電力損失の材料特異的な波形非依存的な推定のためのデータ駆動モデルの開発を競合他社に求めている。 下記のHARDCORE (H-field and power loss Estimation for Arbitrary waveforms with Residual, Dilated convolutional Neural Network in Ferrte COREs) アプローチは、物理インフォーム拡張を持つ残留畳み込みニューラルネットワークが、事前に観測データに基づいてトレーニングした場合に、このタスクを効率的に行うことができることを示している。 1つの重要な解要素は、まずbh曲線を再構成し、次に提案したトポロジーを物理的に解釈可能な曲線の面積に基づいて電力損失を推定する中間モデル層である。 さらに、リーンモデルアーキテクチャを実現するために、エキスパートベースの機能エンジニアリングと情報豊富なインプットに重点が置かれた。 モデルは各材料についてスクラッチから訓練されるが、トポロジーは同じである。 モデルサイズと推定精度とのparetoスタイルのトレードオフが実証され、十分なサンプルのサンプルを持つ最悪のケース材料の相対誤差の95分の1に対して、最大1755パラメータ以下で8\,\%以下の最適値が得られる。

The MagNet Challenge 2023 calls upon competitors to develop data-driven models for the material-specific, waveform-agnostic estimation of steady-state power losses in toroidal ferrite cores. The following HARDCORE (H-field and power loss estimation for Arbitrary waveforms with Residual, Dilated convolutional neural networks in ferrite COREs) approach shows that a residual convolutional neural network with physics-informed extensions can serve this task efficiently when trained on observational data beforehand. One key solution element is an intermediate model layer which first reconstructs the bh curve and then estimates the power losses based on the curve's area rendering the proposed topology physically interpretable. In addition, emphasis was placed on expert-based feature engineering and information-rich inputs in order to enable a lean model architecture. A model is trained from scratch for each material, while the topology remains the same. A Pareto-style trade-off between model size and estimation accuracy is demonstrated, which yields an optimum at as low as 1755 parameters and down to below 8\,\% for the 95-th percentile of the relative error for the worst-case material with sufficient samples.
翻訳日:2024-01-23 16:06:43 公開日:2024-01-21
# 連続可変量子系における楕円曲線

Elliptic Curves in Continuous-Variable Quantum Systems ( http://arxiv.org/abs/2401.11579v1 )

ライセンス: Link先を確認
Maxwell Aifer and Evan Sheldon(参考訳) 楕円曲線は、アーベル群を定義するのに使用できる平面曲線である。 この群上の離散対数の効率的な計算は、暗号に関する長年の問題である。 群加算演算を量子デバイス上で効率的に計算できると仮定して、量子コンピュータを用いてこれらの対数を効率的に計算することができる。 しかし、現在、楕円曲線群の追加には何千もの論理量子ビットが必要であり、この応用は短期量子ハードウェアには及ばない。 ここでは,立方ポテンシャルエネルギーを持つシステムの弱測定に基づいて,単一の連続変数モードを用いた楕円曲線群加算を計算するアルゴリズムを提案する。 この結果は、量子デバイスを用いた楕円曲線離散対数効率の改善につながる可能性がある。

Elliptic curves are planar curves which can be used to define an abelian group. The efficient computation of discrete logarithms over this group is a longstanding problem relevant to cryptography. It may be possible to efficiently compute these logarithms using a quantum computer, assuming that the group addition operation can be computed efficiently on a quantum device. Currently, however, thousands of logical qubits are required for elliptic curve group addition, putting this application out of reach for near-term quantum hardware. Here we give an algorithm for computing elliptic curve group addition using a single continuous-variable mode, based on weak measurements of a system with a cubic potential energy. This result could lead to improvements in the efficiency of elliptic curve discrete logarithms using a quantum device.
翻訳日:2024-01-23 15:59:07 公開日:2024-01-21
# 非対称量子井戸におけるクーパーペア組換えによる絡み合った光子の生成

Generation of Entangled Photons via Cooper Pair Recombination in Noncentrosymmetric Quantum Wells ( http://arxiv.org/abs/2401.11577v1 )

ライセンス: Link先を確認
Mehdi Biderang, Erfan Hosseini, and Alireza Akbari(参考訳) 非中心対称[001]量子井戸超伝導体内のクーパー対再結合による2光子対の絡み合いの発生を理論的に検討する。 超伝導状態は近接効果によって量子井戸に誘導され、RashbaとDresselhausの非対称スピン軌道カップリングが付加される。 我々の研究は、純粋な一重項クーパー対を含むシナリオの中で、エンタングル光子対の到達可能な最も高い純度が現れることを強調する。 具体的には、シングルトペアリングにおける従来の$s$-waveギャップ関数は、最も高い純度レベルを達成する。 さらに, スピントリップペアリング振幅を低減し, 良好な純度の絡み合った状態を実現することの重要性が示唆された。 この還元は、反対称スピン軌道カップリングの振幅を小さくすることで達成できる。 純度を考慮することに加えて、研究は2光子状態の人口に分解する。 我々は,非対称超伝導井内で発生した2光子状態のうち,$s+p$-および$d^{}_{x^2-y^2}+p$-wave Cooperペアが最大集団値を示すことを示した。

We theoretically explore the generation of entangled two-photon pairs through Cooper pair recombination within a noncentrosymmetric [001]-quantum well superconductor. Superconducting state is induced into the quantum well via proximity effects, and featuring an admixture of Rashba and Dresselhaus antisymmetric spin-orbit couplings. Our investigation highlights that the highest achievable purity of entangled photon pairs emerges within scenarios involving pure singlet Cooper pairs. Specifically, the conventional $s$-wave gap function within the singlet pairings achieves the highest purity levels. Furthermore, our findings underscore the significance of reducing spin-triplet pairing amplitudes to attain entangled states of superior purity. This reduction can be achieved by diminishing the amplitude of antisymmetric spin-orbit couplings. In addition to purity considerations, our study delves into the population of two-photon states. We observed that states featuring $s+p$- and $d^{}_{x^2-y^2}+p$-wave Cooper pairings exhibit the highest population values among the generated entangled two-photon states within a noncentrosymmetric superconducting quantum well.
翻訳日:2024-01-23 15:58:57 公開日:2024-01-21
# 教師なし表現学習による量子アーキテクチャ探索

Quantum Architecture Search with Unsupervised Representation Learning ( http://arxiv.org/abs/2401.11576v1 )

ライセンス: Link先を確認
Yize Sun, Zixin Wu, Yunpu Ma, Volker Tresp(参考訳) 量子アーキテクチャ探索(QAS)における教師なし表現学習の利用は、ノイズ中間スケール量子(NISQ)デバイスにおける潜在的な量子優位性を実現するための最先端アプローチである。 ほとんどのQASアルゴリズムは、探索空間と探索アルゴリズムを組み合わせ、一般に、探索プロセス中に多数の量子回路を評価する必要がある。 予測器に基づくQASアルゴリズムは、回路の性能をその構造に応じて直接推定することでこの問題を軽減することができる。 しかし、高性能な予測器は、多くのラベル付き量子回路を得るのに非常に時間を要する。 近年、古典的ニューラルネットワーク探索アルゴリズムArch2vecは、アーキテクチャ検索が、教師なし表現学習を探索プロセスから切り離すことの恩恵を享受できることを示した。 教師なしの表現学習が予測子なしでQASに役立つかどうかは、まだオープントピックである。 本研究では、教師なし表現学習を用いたフレームワークQASを提案し、教師なしアーキテクチャ表現学習が類似の接続と演算子による量子回路アーキテクチャのクラスタリングをいかに促進するかを可視化する。 具体的には、QASのプロセスが教師なしアーキテクチャ表現学習から切り離され、学習された表現が異なる下流アプリケーションに直接適用できるようにする。 さらに,多くのラベル付き量子回路の必要性をなくし,予測を不要とした。 探索の過程では,2つのアルゴリズムによる強化法とベイズ最適化法を用いて潜在表現を直接探索し,それらをランダム探索法と比較する。 その結果,本フレームワークは,検索回数の限られた範囲で,より効率的に高い性能の候補回路を得ることができた。

Utilizing unsupervised representation learning for quantum architecture search (QAS) represents a cutting-edge approach poised to realize potential quantum advantage on Noisy Intermediate-Scale Quantum (NISQ) devices. Most QAS algorithms combine their search space and search algorithms together and thus generally require evaluating a large number of quantum circuits during the search process. Predictor-based QAS algorithms can alleviate this problem by directly estimating the performance of circuits according to their structures. However, a high-performance predictor generally requires very time-consuming labeling to obtain a large number of labeled quantum circuits. Recently, a classical neural architecture search algorithm Arch2vec inspires us by showing that architecture search can benefit from decoupling unsupervised representation learning from the search process. Whether unsupervised representation learning can help QAS without any predictor is still an open topic. In this work, we propose a framework QAS with unsupervised representation learning and visualize how unsupervised architecture representation learning encourages quantum circuit architectures with similar connections and operators to cluster together. Specifically, our framework enables the process of QAS to be decoupled from unsupervised architecture representation learning so that the learned representation can be directly applied to different downstream applications. Furthermore, our framework is predictor-free eliminating the need for a large number of labeled quantum circuits. During the search process, we use two algorithms REINFORCE and Bayesian Optimization to directly search on the latent representation, and compare them with the method Random Search. The results show our framework can more efficiently get well-performing candidate circuits within a limited number of searches.
翻訳日:2024-01-23 15:58:39 公開日:2024-01-21
# 3体相互作用を持つ低次元フェルミオン系における普遍的$p$-wave四量体

Universal $p$-wave tetramers in low-dimensional fermionic systems with three-body interaction ( http://arxiv.org/abs/2401.11574v1 )

ライセンス: Link先を確認
V. Polkanov and V. Pastukhov(参考訳) 2体相互作用を持つ系の狭いフェッシュバッハ共鳴に触発され、低次元の有限次元効果を考慮した3体相互作用を伴う3成分フェルミオンの2チャネルモデルを提案する。 このモデルでは、4体セクターにおける$p$-wave Efimov-like効果が1D以上の分数次元で予測される。 有限範囲相互作用が$d=1$の四体境界状態形成に及ぼす影響についても詳細に論じている。

Inspired by the narrow Feshbach resonance in systems with the two-body interaction, we propose the two-channel model of three-component fermions with the three-body interaction that takes into account the finite-range effects in low dimensions. Within this model, the $p$-wave Efimov-like effect in the four-body sector is predicted in fractional dimensions above 1D. The impact of the finite-range interaction on the formation of the four-body bound states in $d=1$ is also discussed in detail.
翻訳日:2024-01-23 15:58:09 公開日:2024-01-21
# 文脈分布と段階的制約を考慮した確率帯域の分散マルチタスク学習

Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints ( http://arxiv.org/abs/2401.11563v1 )

ライセンス: Link先を確認
Jiabin Lin and Shana Moothedath(参考訳) 不均一エージェントを用いた確率線形文脈帯域における保守的分散マルチタスク学習の問題点について述べる。 これは保守的な線形帯域幅を分散環境に拡張し、Mエージェントはステージワイドなパフォーマンス制約に固執しながら、異なるが関連するタスクに取り組む。 正確な文脈は分かっておらず、市場予測や天気予報といったコンテキストを推測する予測機構を含む多くの実践的な応用と同様に、エージェントにのみコンテキスト分布が利用可能である。 分散上信頼境界(UCB)アルゴリズムであるDiSC-UCBを提案する。 提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーンドアクションセットを構築する。 さらに、適切に構造化された同期ステップを使用して、中央サーバを介してエージェント間での見積もりの同期共有を含む。 我々は、そのアルゴリズムの後悔とコミュニケーションの境界を証明する。 我々は、エージェントがベースライン報酬を知らないような設定にまで問題を拡大する。 そこで本研究では,修正アルゴリズムであるDiSC-UCB2を提案する。 合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。

We present the problem of conservative distributed multi-task learning in stochastic linear contextual bandits with heterogeneous agents. This extends conservative linear bandits to a distributed setting where M agents tackle different but related tasks while adhering to stage-wise performance constraints. The exact context is unknown, and only a context distribution is available to the agents as in many practical applications that involve a prediction mechanism to infer context, such as stock market prediction and weather forecast. We propose a distributed upper confidence bound (UCB) algorithm, DiSC-UCB. Our algorithm constructs a pruned action set during each round to ensure the constraints are met. Additionally, it includes synchronized sharing of estimates among agents via a central server using well-structured synchronization steps. We prove the regret and communication bounds on the algorithm. We extend the problem to a setting where the agents are unaware of the baseline reward. For this setting, we provide a modified algorithm, DiSC-UCB2, and we show that the modified algorithm achieves the same regret and communication bounds. We empirically validated the performance of our algorithm on synthetic data and real-world Movielens-100K data.
翻訳日:2024-01-23 15:58:01 公開日:2024-01-21
# Wasserstein distance based reweighing を用いた選択性向上

Enhancing selectivity using Wasserstein distance based reweighing ( http://arxiv.org/abs/2401.11562v1 )

ライセンス: Link先を確認
Pratik Worah(参考訳) 2つのラベル付きデータセット$\mathcal{s}$と$\mathcal{t}$が与えられると、$\mathcal{s}$のトレーニングから得られるニューラルネットワーク重みの制限分布が$\mathcal{t}$のトレーニングによって生じる制限分布に近づくように、損失関数を緩和するために、単純で効率的なグリーディアルゴリズムを設計する。 理論的には、入力データセットの計量エントロピーが有界である場合、我々のグリーディアルゴリズムは最適緩和に近い値、すなわちネットワーク重みの2つの不変分布が全変動距離において確実に近いことを証明している。 さらに,アルゴリズムは単純でスケーラブルであり,アルゴリズムの効率性にも限界があることを示す。 提案アルゴリズムは,分散シフトを意図的に導入し,(ソフト)マルチ基準最適化を実現する。 モチベーション・アプリケーションとして、mnk1(非常に類似したタンパク質)と非バイダーであるmnk2(mapキナーゼ、細胞シグナル伝達に関与する)に小さな分子バインダーを認識する神経ネットを訓練する。 我々は、ホールドアウト損失の全体的な変化が無視できるようにアルゴリズムのパラメータを調整するが、選択性、すなわち、MNK1非バインダーである上位100個のMNK2バインダーの比率は、リウィーディングの結果、54\%から95\%に増加する。 エナミンカタログから最も選択的であると予測された43個の小さな分子のうち、2つの小さな分子が選択的であることが実験的に証明された。

Given two labeled data-sets $\mathcal{S}$ and $\mathcal{T}$, we design a simple and efficient greedy algorithm to reweigh the loss function such that the limiting distribution of the neural network weights that result from training on $\mathcal{S}$ approaches the limiting distribution that would have resulted by training on $\mathcal{T}$. On the theoretical side, we prove that when the metric entropy of the input data-sets is bounded, our greedy algorithm outputs a close to optimal reweighing, i.e., the two invariant distributions of network weights will be provably close in total variation distance. Moreover, the algorithm is simple and scalable, and we prove bounds on the efficiency of the algorithm as well. Our algorithm can deliberately introduce distribution shift to perform (soft) multi-criteria optimization. As a motivating application, we train a neural net to recognize small molecule binders to MNK2 (a MAP Kinase, responsible for cell signaling) which are non-binders to MNK1 (a highly similar protein). We tune the algorithm's parameter so that overall change in holdout loss is negligible, but the selectivity, i.e., the fraction of top 100 MNK2 binders that are MNK1 non-binders, increases from 54\% to 95\%, as a result of our reweighing. Of the 43 distinct small molecules predicted to be most selective from the enamine catalog, 2 small molecules were experimentally verified to be selective, i.e., they reduced the enzyme activity of MNK2 below 50\% but not MNK1, at 10$\mu$M -- a 5\% success rate.
翻訳日:2024-01-23 15:57:44 公開日:2024-01-21
# データ再アップロードによるvqcベースの強化学習:パフォーマンスとトレーサビリティ

VQC-Based Reinforcement Learning with Data Re-uploading: Performance and Trainability ( http://arxiv.org/abs/2401.11555v1 )

ライセンス: Link先を確認
Rodrigo Coelho, Andr\'e Sequeira, Lu\'is Paulo Santos(参考訳) 強化学習(Reinforcement Learning, RL)は、人間の監督なしに知的意思決定を行うエージェントを設計する。 ニューラルネットワーク(NN)などの関数近似と併用することで、RLは極めて複雑な問題を解決することができる。 Deep NNを使用するRLアルゴリズムであるDeep Q-Learningは、いくつかの特定のタスクで超人的なパフォーマンスを達成した。 それでも、RLアルゴリズムの関数近似器として変分量子回路(VQC)を用いることもできる。 この研究は、古典的な制御ベンチマーク環境でのVQCベースのDeep Q-Learningモデルの性能と訓練性を実証的に研究する。 具体的には、データの再アップロードが両方のメトリクスに与える影響について調査する。 深層Q-Learningの移動目標により,これらのモデルの大きさと勾配のばらつきは,トレーニングを通して大きく保たれている。 さらに, 量子ビット数の増加は, バレンプラトーフェノメノンの予想と異なり, PQC 近似の勾配の指数関数的消滅挙動と分散に繋がるものではないことを実証的に示す。 このことは、VQCがそのような文脈で関数近似器として使われるのに特別に適している可能性を示唆している。

Reinforcement Learning (RL) consists of designing agents that make intelligent decisions without human supervision. When used alongside function approximators such as Neural Networks (NNs), RL is capable of solving extremely complex problems. Deep Q-Learning, a RL algorithm that uses Deep NNs, achieved super-human performance in some specific tasks. Nonetheless, it is also possible to use Variational Quantum Circuits (VQCs) as function approximators in RL algorithms. This work empirically studies the performance and trainability of such VQC-based Deep Q-Learning models in classic control benchmark environments. More specifically, we research how data re-uploading affects both these metrics. We show that the magnitude and the variance of the gradients of these models remain substantial throughout training due to the moving targets of Deep Q-Learning. Moreover, we empirically show that increasing the number of qubits does not lead to an exponential vanishing behavior of the magnitude and variance of the gradients for a PQC approximating a 2-design, unlike what was expected due to the Barren Plateau Phenomenon. This hints at the possibility of VQCs being specially adequate for being used as function approximators in such a context.
翻訳日:2024-01-23 15:57:09 公開日:2024-01-21
# 補償付きタクシー派遣戦略

Taxi dispatching strategies with compensations ( http://arxiv.org/abs/2401.11553v1 )

ライセンス: Link先を確認
Holger Billhardt, Alberto Fern\'andez, Sascha Ossowski, Javier Palanca, Javier Bajo(参考訳) 大都市では都市移動効率が最も重要である。 タクシーは日常の交通活動において重要な要素である。 ICTや測位システムの進歩により、より知的なインテリジェントな派遣によって、乗客の待ち時間、コストとドライバーの時間、交通密度、CO2排出などの観点からタクシーの効率を向上させる新たな機会が生まれている。 それでも、明示的な空間的・時間的構成要素や規模、特に大都市における乗客とタクシーのペアリングの問題のダイナミックさは、この目的のために役に立たない標準割当問題を解く伝統的なアプローチを生み出し、ドメイン固有のヒューリスティックに基づくインテリジェントな近似戦略を呼び出す。 さらに、タクシー運転手はしばしば自律運転者であり、グローバルに効率的ではあるが個別に有益ではない課題に参加することに同意しない可能性がある。 本稿では,タクシーの配車に関する新たなヒューリスティックなアルゴリズムを提案する。 また、このような新たな課題は、個々のドライバーの予想収益を減少させる可能性があるため、個別に合理的なドライバーが割り当てられたクライアントの修正案に同意する経済補償スキームを提案する。 実験では, 提案アルゴリズムの3つの異なるインスタンス化と, 一般に用いられている代入戦略を比較検討した。 以上の結果から,当社の提案は,経済的な観点からも有益でありながら,自動タクシーの車両の待ち時間を短縮できる可能性が示唆された。

Urban mobility efficiency is of utmost importance in big cities. Taxi vehicles are key elements in daily traffic activity. The advance of ICT and geo-positioning systems has given rise to new opportunities for improving the efficiency of taxi fleets in terms of waiting times of passengers, cost and time for drivers, traffic density, CO2 emissions, etc., by using more informed, intelligent dispatching. Still, the explicit spatial and temporal components, as well as the scale and, in particular, the dynamicity of the problem of pairing passengers and taxis in big towns, render traditional approaches for solving standard assignment problem useless for this purpose, and call for intelligent approximation strategies based on domain-specific heuristics. Furthermore, taxi drivers are often autonomous actors and may not agree to participate in assignments that, though globally efficient, may not be sufficently beneficial for them individually. This paper presents a new heuristic algorithm for taxi assignment to customers that considers taxi reassignments if this may lead to globally better solutions. In addition, as such new assignments may reduce the expected revenues of individual drivers, we propose an economic compensation scheme to make individually rational drivers agree to proposed modifications in their assigned clients. We carried out a set of experiments, where several commonly used assignment strategies are compared to three different instantiations of our heuristic algorithm. The results indicate that our proposal has the potential to reduce customer waiting times in fleets of autonomous taxis, while being also beneficial from an economic point of view.
翻訳日:2024-01-23 15:56:50 公開日:2024-01-21
# リハーサルフリー連続学習のための階層的プロンプト

Hierarchical Prompts for Rehearsal-free Continual Learning ( http://arxiv.org/abs/2401.11544v1 )

ライセンス: Link先を確認
Yukun Zuo, Hantao Yao, Lu Yu, Liansheng Zhuang, Changsheng Xu(参考訳) 継続的な学習は、過去のタスク知識の忘れを軽減しつつ、現在のタスク知識を統合する能力をモデルに装備する。 迅速なチューニングによってインスパイアされたプロンプトベースのメソッドは、凍結したバックボーンを維持し、学習可能なプロンプトでトレーニングすることで、多数のバックボーンパラメータの更新によって生じる破滅的な忘れを最小化する。 それでも、これらの学習可能なプロンプトは、過去のタスク知識を無視しながら、現在のタスクの差別的な知識に集中する傾向にあり、その学習可能なプロンプトは依然として破滅的な忘れがちである。 本稿では,H-Prompts(H-Prompts)と呼ばれる連続学習のための新しいリハーサルのないパラダイムを紹介し,プロンプトの3つのカテゴリ – クラスプロンプト,タスクプロンプト,一般プロンプト – を紹介する。 過去のクラスの知識を効果的に表現するために、クラスプロンプトはベイズ分布アライメントを利用して各タスクにおけるクラスの分布をモデル化する。 過去のタスク知識の忘れを抑えるため、タスクプロンプトはクロスタスク知識発掘を用いて、過去のタスクと現在のタスク知識の学習クラスプロンプトにカプセル化された知識を融合させる。 さらに、汎用的な知識探索を用いて、高度に一般化された知識を自己監督的に推測する。 2つのベンチマークの評価は提案されたH-Promptの有効性を裏付け、Split CIFAR-100の平均精度は87.8%、Split ImageNet-Rは70.6%である。

Continual learning endeavors to equip the model with the capability to integrate current task knowledge while mitigating the forgetting of past task knowledge. Inspired by prompt tuning, prompt-based methods maintain a frozen backbone and train with slight learnable prompts to minimize the catastrophic forgetting that arises due to updating a large number of backbone parameters. Nonetheless, these learnable prompts tend to concentrate on the discriminatory knowledge of the current task while ignoring past task knowledge, leading to that learnable prompts still suffering from catastrophic forgetting. This paper introduces a novel rehearsal-free paradigm for continual learning termed Hierarchical Prompts (H-Prompts), comprising three categories of prompts -- class prompt, task prompt, and general prompt. To effectively depict the knowledge of past classes, class prompt leverages Bayesian Distribution Alignment to model the distribution of classes in each task. To reduce the forgetting of past task knowledge, task prompt employs Cross-task Knowledge Excavation to amalgamate the knowledge encapsulated in the learned class prompts of past tasks and current task knowledge. Furthermore, general prompt utilizes Generalized Knowledge Exploration to deduce highly generalized knowledge in a self-supervised manner. Evaluations on two benchmarks substantiate the efficacy of the proposed H-Prompts, exemplified by an average accuracy of 87.8% in Split CIFAR-100 and 70.6% in Split ImageNet-R.
翻訳日:2024-01-23 15:56:23 公開日:2024-01-21
# エネルギーベースモデルが平衡伝播にどの程度ロバストか?

How Robust Are Energy-Based Models Trained With Equilibrium Propagation? ( http://arxiv.org/abs/2401.11543v1 )

ライセンス: Link先を確認
Siddharth Mansingh, Michal Kucer, Garrett Kenyon, Juston Moore and Michael Teti(参考訳) ディープニューラルネットワーク(DNN)は、人間には受け入れられない敵の摂動によって容易に騙される。 敵意トレーニング(adversarial training)は、相手の例をトレーニングセットに追加するプロセスであり、敵意攻撃に対する現在の最先端の防御であるが、クリーン入力におけるモデルの精度を低下させ、計算コストが高く、自然雑音に対するロバスト性が低下する。 対照的に、ニューロモルフィックハードウェアや物理システムにおける効率的な実装のために設計されたエネルギーベースモデル(EBM)は、各層から前の層へのフィードバック接続を組み込んでおり、我々はそれを自然に堅牢にすべきと仮定している。 我々の研究は、CIFAR-10とCIFAR-100のデータセットを用いて、自然破壊と敵攻撃の両方に対するESMの堅牢性を調べる最初のものである。 EBMはトランスフォーマーよりも頑丈で、グラデーションベースの(ホワイトボックス)攻撃、クエリベースの(ブラックボックス)攻撃、および自然な摂動に対して、敵のトレーニングや追加の訓練テクニックを必要とせず、敵のトレーニングに匹敵する堅牢性を示す。

Deep neural networks (DNNs) are easily fooled by adversarial perturbations that are imperceptible to humans. Adversarial training, a process where adversarial examples are added to the training set, is the current state-of-the-art defense against adversarial attacks, but it lowers the model's accuracy on clean inputs, is computationally expensive, and offers less robustness to natural noise. In contrast, energy-based models (EBMs), which were designed for efficient implementation in neuromorphic hardware and physical systems, incorporate feedback connections from each layer to the previous layer, yielding a recurrent, deep-attractor architecture which we hypothesize should make them naturally robust. Our work is the first to explore the robustness of EBMs to both natural corruptions and adversarial attacks, which we do using the CIFAR-10 and CIFAR-100 datasets. We demonstrate that EBMs are more robust than transformers and display comparable robustness to adversarially-trained DNNs on gradient-based (white-box) attacks, query-based (black-box) attacks, and natural perturbations without sacrificing clean accuracy, and without the need for adversarial training or additional training techniques.
翻訳日:2024-01-23 15:55:55 公開日:2024-01-21
# 原子間力顕微鏡による微小・ナノ構造の多視点ニューラル3次元再構成

Multi-View Neural 3D Reconstruction of Micro-/Nanostructures with Atomic Force Microscopy ( http://arxiv.org/abs/2401.11541v1 )

ライセンス: Link先を確認
Shuo Chen, Mao Peng, Yijin Li, Bing-Feng Ju, Hujun Bao, Yuan-Liu Chen, Guofeng Zhang(参考訳) 原子間力顕微鏡(AFM、Atomic Force Microscopy)は、マイクロ・ナノスケールのトポグラフィーのためのツールである。 しかし, 従来のafmスキャンでは, 不完全なサンプルトポグラフィーや先端サンプル畳み込みなどの制約により, 複雑な3次元マイクロ・ナノ構造の再構築に苦慮している。 本稿では,複雑なマイクロナノ構造の表面モデルを正確に再構成する多視点ニューラルネットワークベースのフレームワーク(mvn-afm)を提案する。 従来の作業とは異なり、MVN-AFMは特別な形状のプローブやAFMシステムへのコストのかかる修正には依存していない。 これを実現するためにMVN-AFMは、マルチビューデータの整列とAFMアーティファクトの同時除去を反復的に行う。 さらに,ナノテクノロジーにおける暗黙的表面再構成の応用を開拓し,その結果を著しく改善した。 大規模な実験により、MVN-AFMは生のAFM画像に存在するアーティファクトを効果的に除去し、2光子リソグラフィーやPMMAナノスフィアやZIF-67ナノ結晶などのナノ粒子で印刷された複雑な幾何学的微細構造を含む様々なミクロ・ナノ構造を再構築した。 本研究では,マイクロ・ナノスケール3次元解析のための費用対効果ツールを提案する。

Atomic Force Microscopy (AFM) is a widely employed tool for micro-/nanoscale topographic imaging. However, conventional AFM scanning struggles to reconstruct complex 3D micro-/nanostructures precisely due to limitations such as incomplete sample topography capturing and tip-sample convolution artifacts. Here, we propose a multi-view neural-network-based framework with AFM (MVN-AFM), which accurately reconstructs surface models of intricate micro-/nanostructures. Unlike previous works, MVN-AFM does not depend on any specially shaped probes or costly modifications to the AFM system. To achieve this, MVN-AFM uniquely employs an iterative method to align multi-view data and eliminate AFM artifacts simultaneously. Furthermore, we pioneer the application of neural implicit surface reconstruction in nanotechnology and achieve markedly improved results. Extensive experiments show that MVN-AFM effectively eliminates artifacts present in raw AFM images and reconstructs various micro-/nanostructures including complex geometrical microstructures printed via Two-photon Lithography and nanoparticles such as PMMA nanospheres and ZIF-67 nanocrystals. This work presents a cost-effective tool for micro-/nanoscale 3D analysis.
翻訳日:2024-01-23 15:55:31 公開日:2024-01-21
# gaussian splattingによる変形性内視鏡組織再建

Deformable Endoscopic Tissues Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2401.11535v1 )

ライセンス: Link先を確認
Lingting Zhu, Zhao Wang, Zhenchao Jin, Guying Lin, Lequan Yu(参考訳) 外科的3次元再構成はロボット手術における重要な研究分野であり,最近の研究では動的放射能場の変種を採用し,単視点映像からの変形性組織の3次元再構成に成功している。 しかし、これらの手法は時間を要する最適化や品質の低下に苦しめられ、下流タスクへの採用が制限されることが多い。 最近流行している3D表現である3D Gaussian Splatting にインスパイアされ, 変形性内視鏡組織再建に Gaussian Splatting を適用した。 具体的には,動的シーンを扱う変形場,単一の視点で3dターゲットを最適化するための奥行き誘導型監督,ツールオクルージョンを緩和するための空間時空間ウエイトマスクを組み込んだ。 結果として、EndoGSは単一視点ビデオ、推定深度マップ、ラベル付きツールマスクから高品質な変形可能な内視鏡組織を再構成しレンダリングする。 DaVinciのロボット手術ビデオの実験では、EndoGSは優れたレンダリング品質を実現している。 コードはhttps://github.com/HKU-MedAI/EndoGSで入手できる。

Surgical 3D reconstruction is a critical area of research in robotic surgery, with recent works adopting variants of dynamic radiance fields to achieve success in 3D reconstruction of deformable tissues from single-viewpoint videos. However, these methods often suffer from time-consuming optimization or inferior quality, limiting their adoption in downstream tasks. Inspired by 3D Gaussian Splatting, a recent trending 3D representation, we present EndoGS, applying Gaussian Splatting for deformable endoscopic tissue reconstruction. Specifically, our approach incorporates deformation fields to handle dynamic scenes, depth-guided supervision to optimize 3D targets with a single viewpoint, and a spatial-temporal weight mask to mitigate tool occlusion. As a result, EndoGS reconstructs and renders high-quality deformable endoscopic tissues from a single-viewpoint video, estimated depth maps, and labeled tool masks. Experiments on DaVinci robotic surgery videos demonstrate that EndoGS achieves superior rendering quality. Code is available at https://github.com/HKU-MedAI/EndoGS.
翻訳日:2024-01-23 15:55:08 公開日:2024-01-21
# tempo:クラウドベースのニューラルネットワークトレーニングにおける機密性維持

Tempo: Confidentiality Preservation in Cloud-Based Neural Network Training ( http://arxiv.org/abs/2401.11531v1 )

ライセンス: Link先を確認
Rongwu Xu and Zhixuan Fang(参考訳) クラウドコンピューティングプラットフォームは、計算リソースが不足している顧客に対して、費用対効果の高いディープニューラルネットワーク(DNN)トレーニングを提供する。 しかし、クラウドシステムはしばしば信頼できないものであり、攻撃者に対して脆弱である。 近年、研究者らは、暗号化の使用を最小限に抑えるCPU信頼実行環境(TEE)を活用することで、ディープラーニングにおけるデータのプライバシ保護を模索しているが、既存の研究では、GPUの計算リソースを同時に活用できず、トレーニングやモデルリークの防止に役立てている。 本稿では,TEEや分散GPUと連携して,モデル秘密保持を伴う効率的なDNNトレーニングを行う,クラウドベースの初のディープラーニングシステムであるTempoについて述べる。 TEEからGPUへの線形代数演算をオフロードして効率よくバッチ計算する際のプライバシ保護の課題に対処するために,入力パラメータとモデルパラメータの両方を無視するパーマテーションベースの難読化アルゴリズムを導入する。 トレーニングの高速化のためにバックプロパゲーション中に、より高速な重み更新のために暗号化操作を削減する最適化機構を提案する。 我々はTempoを実装し、2つの一般的なDNNのトレーニングと推論で評価する。 実証的な結果は、Tempoがベースラインを上回り、十分なプライバシー保護を提供することを示している。

Cloud deep learning platforms provide cost-effective deep neural network (DNN) training for customers who lack computation resources. However, cloud systems are often untrustworthy and vulnerable to attackers, leading to growing concerns about model privacy. Recently, researchers have sought to protect data privacy in deep learning by leveraging CPU trusted execution environments (TEEs), which minimize the use of cryptography, but existing works failed to simultaneously utilize the computational resources of GPUs to assist in training and prevent model leakage. This paper presents Tempo, the first cloud-based deep learning system that cooperates with TEE and distributed GPUs for efficient DNN training with model confidentiality preserved. To tackle the challenge of preserving privacy while offloading linear algebraic operations from TEE to GPUs for efficient batch computation, we introduce a customized permutation-based obfuscation algorithm to blind both inputs and model parameters. An optimization mechanism that reduces encryption operations is proposed for faster weight updates during backpropagation to speed up training. We implement Tempo and evaluate it with both training and inference for two prevalent DNNs. Empirical results indicate that Tempo outperforms baselines and offers sufficient privacy protection.
翻訳日:2024-01-23 15:54:49 公開日:2024-01-21
# マトリックスポテンシャルを持つ2次元ディラック方程式:外部電磁界におけるグラフェン

Solvable Two-dimensional Dirac Equation with Matrix Potential: Graphene in External Electromagnetic Field ( http://arxiv.org/abs/2401.11526v1 )

ライセンス: Link先を確認
Mikhail V. Ioffe and David N. Nishnianidze(参考訳) 外部電磁場におけるグラフェン様物質の励起は、エルミート外対角行列とスカラーポテンシャルの両方を含む無質量2次元ディラック方程式の解によって記述されることが知られている。 これまでの2成分波動関数は、外部電位の異なる形式に対して計算されていたが、従って1つの空間変数のみに依存する。 ここでは,2つの空間変数に依存する相互直交磁場と縦方向静電場に物理的に対応する行列とスカラーの外部電位の組み合わせについて,解析的に解を求める。 この進展の主なツールは、超対称性(susy)の相互関係、すなわち、著者らが最近提案した最も一般的な非対称な形式によって提供された。 そのようなSUSY様の方法は、通常の量子力学における2次分解可能(可算)なSUSY変換と同様の2段階に応用される。

It is known that the excitations in graphene-like materials in external electromagnetic field are described by solutions of massless two-dimensional Dirac equation which includes both Hermitian off-diagonal matrix and scalar potentials. Up to now, such two-component wave functions were calculated for different forms of external potentials but, as a rule, depending on one spatial variable only. Here, we shall find analytically the solutions for a wide class of combinations of matrix and scalar external potentials which physically correspond to applied mutually orthogonal magnetic and longitudinal electrostatic fields, both depending really on two spatial variables. The main tool for this progress was provided by supersymmetrical (SUSY) intertwining relations, namely, by their most general - asymmetrical - form proposed recently by the authors. Such SUSY-like method is applied in two steps similarly to the second order factorizable (reducible) SUSY transformations in ordinary Quantum Mechanics.
翻訳日:2024-01-23 15:54:26 公開日:2024-01-21
# 破壊的過剰フィッティングを克服する効率的な局所線形正規化

Efficient local linearity regularization to overcome catastrophic overfitting ( http://arxiv.org/abs/2401.11618v1 )

ライセンス: Link先を確認
Elias Abad Rocamora, Fanghui Liu, Grigorios G. Chrysos, Pablo M. Olmos, Volkan Cevher(参考訳) 単段階逆行訓練 (AT) における破滅的オーバーフィッティング (CO) は, 逆行性テスト精度(0%まで)の急激な低下をもたらす。 多段ATで訓練されたモデルでは、損失関数は入力に対して局所的に線形に振る舞うことが観察されているが、これは単段ATでは失われる。 単一ステップATでCOに対処するために、正規化により損失の局所線型性を強制するいくつかの方法が提案されている。 しかしながら、これらの正規化条件はダブルバックプロパゲーションによるトレーニングを著しく遅くする。 その代わり,本研究では,古典的評価においてcoを効果的かつ効率的に緩和するためにelleと呼ばれる正規化用語を導入する。 我々の正規化項は、損失関数の曲率に理論的に関連付けられ、二重バックプロパゲーションを回避して、従来の方法よりも計算的に安価である。 私たちの徹底した実験的検証は、以前の作業がcoに苦しむような状況でも、私たちの作業がcoに苦しむことはないことを証明します。 また、トレーニング中に正規化パラメータ(ELLE-A)を適用することで、特に大規模な$\epsilon$セットアップでパフォーマンスが大幅に向上する点にも気付きました。 我々の実装はhttps://github.com/LIONS-EPFL/ELLEで利用可能です。

Catastrophic overfitting (CO) in single-step adversarial training (AT) results in abrupt drops in the adversarial test accuracy (even down to 0%). For models trained with multi-step AT, it has been observed that the loss function behaves locally linearly with respect to the input, this is however lost in single-step AT. To address CO in single-step AT, several methods have been proposed to enforce local linearity of the loss via regularization. However, these regularization terms considerably slow down training due to Double Backpropagation. Instead, in this work, we introduce a regularization term, called ELLE, to mitigate CO effectively and efficiently in classical AT evaluations, as well as some more difficult regimes, e.g., large adversarial perturbations and long training schedules. Our regularization term can be theoretically linked to curvature of the loss function and is computationally cheaper than previous methods by avoiding Double Backpropagation. Our thorough experimental validation demonstrates that our work does not suffer from CO, even in challenging settings where previous works suffer from it. We also notice that adapting our regularization parameter during training (ELLE-A) greatly improves the performance, specially in large $\epsilon$ setups. Our implementation is available in https://github.com/LIONS-EPFL/ELLE .
翻訳日:2024-01-23 15:46:30 公開日:2024-01-21
# アフリカにおけるコンピュータビジョンデータセット,トピック,研究者に関する調査

A Survey on African Computer Vision Datasets, Topics and Researchers ( http://arxiv.org/abs/2401.11617v1 )

ライセンス: Link先を確認
Abdul-Hakeem Omotayo, Ashery Mbilinyi, Lukman Ismaila, Houcemeddine Turki, Mahmoud Abdien, Karim Gamal, Idriss Tondji, Yvan Pimi, Naome A. Etori, Marwa M. Matar, Clifford Broni-Bediako, Abigail Oppong, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Daniel Ajisafe, Oluwabukola G. Adegboro, Mennatullah Siam(参考訳) コンピュータビジョンは、オブジェクト検出、セマンティックセグメンテーション、および3D再構成などのタスクを含む。 アフリカのコミュニティと関係があるにもかかわらず、アフリカにおけるこの分野の研究は過去10年間のトップクラスの出版物の0.06%に過ぎない。 この研究は、アフリカから2012年から2022年までの63,000のスコパスによるコンピュータビジョンの出版を徹底的に分析した。 目的は、アフリカのコンピュータビジョンのトピック、データセット、研究者に関する調査を提供することである。 本研究の重要な側面は,これらの論文の要約を自動的に解析する大規模言語モデルを用いて,アフリカンコンピュータビジョンデータセットの識別と分類である。 また、課題やデータホスティングプラットフォームを通じて分散された非公式のアフリカコンピュータビジョンデータセットのコンパイルや、データセットカテゴリの完全な分類を提供する。 また,アフリカ地域ごとに異なるコンピュータビジョンのトピックスに着目し,それぞれ独自のフォーカス領域を示す。 さらに、アフリカ研究者のアフリカ大陸におけるコンピュータビジョン研究の現状と、彼らが緊急の注意が必要であると考えている構造的障壁に関する見解を、広範囲に調査した。 本研究は,アフリカ機関が提供または開始したコンピュータビジョンデータセットとトピックをカタログ化し,分類し,上位クラスのコンピュータビジョン会場における出版の障壁を特定する。 この調査は、アフリカ人の研究者や機関がアフリカ大陸におけるコンピュータビジョン研究を進めることの重要性を強調している。 また、研究トピックがアフリカのコミュニティのニーズに合致する必要性を強調している。

Computer vision encompasses a range of tasks such as object detection, semantic segmentation, and 3D reconstruction. Despite its relevance to African communities, research in this field within Africa represents only 0.06% of top-tier publications over the past decade. This study undertakes a thorough analysis of 63,000 Scopus-indexed computer vision publications from Africa, spanning from 2012 to 2022. The aim is to provide a survey of African computer vision topics, datasets and researchers. A key aspect of our study is the identification and categorization of African Computer Vision datasets using large language models that automatically parse abstracts of these publications. We also provide a compilation of unofficial African Computer Vision datasets distributed through challenges or data hosting platforms, and provide a full taxonomy of dataset categories. Our survey also pinpoints computer vision topics trends specific to different African regions, indicating their unique focus areas. Additionally, we carried out an extensive survey to capture the views of African researchers on the current state of computer vision research in the continent and the structural barriers they believe need urgent attention. In conclusion, this study catalogs and categorizes Computer Vision datasets and topics contributed or initiated by African institutions and identifies barriers to publishing in top-tier Computer Vision venues. This survey underscores the importance of encouraging African researchers and institutions in advancing computer vision research in the continent. It also stresses on the need for research topics to be more aligned with the needs of African communities.
翻訳日:2024-01-23 15:46:07 公開日:2024-01-21
# 入射ニューラルネットワークによるスパース観測からの連続場再構成

Continuous Field Reconstruction from Sparse Observations with Implicit Neural Networks ( http://arxiv.org/abs/2401.11611v1 )

ライセンス: Link先を確認
Xihaier Luo, Wei Xu, Yihui Ren, Shinjae Yoo, Balu Nadiga(参考訳) スパースセンサデータから物理フィールドを確実に再構築することは、多くの科学領域で頻繁に発生する課題である。 実際には、データを生成するプロセスはしばしば十分な精度で理解されていない。 そのため、この問題に対処するためにディープニューラルネットワークルートの利用に関心が高まっている。 本研究は,暗黙的神経表現(inrs)を用いた物理場の連続表現を学習する新しいアプローチを提案する。 具体的には、変数分離手法を用いて時空間変動を空間的および時間的成分に分解した後、疎くサンプリングされた不規則なデータ点から関連する基底関数を学習し、データの連続的な表現を開発する。 実験評価では,最新の気候モデルと,超高解像度衛星による海面温度場を含む2番目のデータセットのシミュレーションデータにおいて,inr法よりも優れた再現性を提供する。

Reliably reconstructing physical fields from sparse sensor data is a challenge that frequently arises in many scientific domains. In practice, the process generating the data often is not understood to sufficient accuracy. Therefore, there is a growing interest in using the deep neural network route to address the problem. This work presents a novel approach that learns a continuous representation of the physical field using implicit neural representations (INRs). Specifically, after factorizing spatiotemporal variability into spatial and temporal components using the separation of variables technique, the method learns relevant basis functions from sparsely sampled irregular data points to develop a continuous representation of the data. In experimental evaluations, the proposed model outperforms recent INR methods, offering superior reconstruction quality on simulation data from a state-of-the-art climate model and a second dataset that comprises ultra-high resolution satellite-based sea surface temperature fields.
翻訳日:2024-01-23 15:45:44 公開日:2024-01-21
# 対実的説明のためのグラフ編集:統一GNNアプローチ

Graph Edits for Counterfactual Explanations: A Unified GNN Approach ( http://arxiv.org/abs/2401.11609v1 )

ライセンス: Link先を確認
Nikolaos Chaidos, Angeliki Dimitriou, Maria Lymperaiou, Giorgos Stamou(参考訳) counterfactualsは、分類器の予測を変更するために、最小限の編集セットを利用する一般的な説明可能性技術として確立されている。 概念的反事実を考える場合、要求された編集は入力データに存在する健全な概念に対応するべきである。 同時に、概念距離は知識グラフによって定義され、概念編集の最適性を保証する。 本研究は, グラフとして入力データを表現すべきか, ブラックボックス分類器によって提供される代替分類ラベルとなる最短のグラフ編集経路である。

Counterfactuals have been established as a popular explainability technique which leverages a set of minimal edits to alter the prediction of a classifier. When considering conceptual counterfactuals, the edits requested should correspond to salient concepts present in the input data. At the same time, conceptual distances are defined by knowledge graphs, ensuring the optimality of conceptual edits. In this work, we extend previous endeavors on conceptual counterfactuals by introducing \textit{graph edits as counterfactual explanations}: should we represent input data as graphs, which is the shortest graph edit path that results in an alternative classification label as provided by a black-box classifier?
翻訳日:2024-01-23 15:45:28 公開日:2024-01-21
# $\texttt{immrax}$:A Parallelizable and Differentiable Toolbox for Interval Analysis and Mixed Monotone Reachability in JAX

$\texttt{immrax}$: A Parallelizable and Differentiable Toolbox for Interval Analysis and Mixed Monotone Reachability in JAX ( http://arxiv.org/abs/2401.11608v1 )

ライセンス: Link先を確認
Akash Harapanahalli, Saber Jafarpour, Samuel Coogan(参考訳) 計算フレームワークJAXで完全に構成可能なPythonの関数変換として,区間解析と混合単調区間到達可能性解析を実装した。 結果のツールボックスは、Just-In-Time Compilationによる計算効率、高速並列計算のためのGPUアクセラレーション、自動微分可能性など、JAXからいくつかの重要な機能を継承している。 本研究では,ニューラルネットワークによって制御される車両モデルの到達可能性問題や,揺動振り子のロバスト閉ループ最適制御問題など,いくつかのケーススタディにおいてツールボックスの性能を示す。

We present an implementation of interval analysis and mixed monotone interval reachability analysis as function transforms in Python, fully composable with the computational framework JAX. The resulting toolbox inherits several key features from JAX, including computational efficiency through Just-In-Time Compilation, GPU acceleration for quick parallelized computations, and Automatic Differentiability. We demonstrate the toolbox's performance on several case studies, including a reachability problem on a vehicle model controlled by a neural network, and a robust closed-loop optimal control problem for a swinging pendulum.
翻訳日:2024-01-23 15:45:16 公開日:2024-01-21
# 砂時計拡散トランスを用いたスケーラブル高分解能画素空間画像合成

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers ( http://arxiv.org/abs/2401.11605v1 )

ライセンス: Link先を確認
Katherine Crowson and Stefan Andreas Baumann and Alex Birch and Tanishq Mathew Abraham and Daniel Z. Kaplan and Enrico Shippole(参考訳) 本研究では,画像生成モデルである砂時計拡散トランス(hdit)を提案する。これは画素数で線形スケーリングを行い,高解像度(例えば1024 \times 1024$)のトレーニングを直接ピクセル空間で支援する。 数十億のパラメータにスケールすることが知られているTransformerアーキテクチャに基づいて構築され、畳み込みU-Netの効率とTransformerのスケーラビリティのギャップを埋める。 HDiTは、マルチスケールアーキテクチャ、潜伏オートエンコーダ、セルフコンディショニングのような典型的な高精細な訓練技術なしでうまく訓練できる。 FFHQ-$1024^2$の拡散モデルに対して,HDiTが既存のモデルに対して256^2$の競争力を持つことを示す。

We present the Hourglass Diffusion Transformer (HDiT), an image generative model that exhibits linear scaling with pixel count, supporting training at high-resolution (e.g. $1024 \times 1024$) directly in pixel-space. Building on the Transformer architecture, which is known to scale to billions of parameters, it bridges the gap between the efficiency of convolutional U-Nets and the scalability of Transformers. HDiT trains successfully without typical high-resolution training techniques such as multiscale architectures, latent autoencoders or self-conditioning. We demonstrate that HDiT performs competitively with existing models on ImageNet $256^2$, and sets a new state-of-the-art for diffusion models on FFHQ-$1024^2$.
翻訳日:2024-01-23 15:45:01 公開日:2024-01-21
# マスキング言語モデルにおける社会的バイアス評価のためのロバスト評価手法

Robust Evaluation Measures for Evaluating Social Biases in Masked Language Models ( http://arxiv.org/abs/2401.11601v1 )

ライセンス: Link先を確認
Yang Liu(参考訳) マスキング言語モデル(MLM)における社会的バイアスを評価するために多くの評価尺度が用いられる。 しかし,これらの評価手法は,限られたデータセットを持つシナリオでは堅牢性に欠けることがわかった。 これは、指標関数を用いてステレオタイプおよびアンチステレオタイプ標本の擬似log-likelihood(PLL)スコアを比較して得られるためである。 欠点は、分布情報を取得せずにPLLスコアセットを限定的にマイニングすることである。 本稿では, PLL スコアをガウス分布として表現し, Kullback Leibler (KL) の発散と Jensen Shannon (JS) の発散を用いて, ステレオタイプおよび反ステレオタイプな PLL スコアの分布の評価尺度を構築する。 StereoSet (SS) と CrowS-Pairs (CP) の公開データセットに対する実験結果から,提案手法は従来よりはるかに堅牢で解釈可能であることが示された。

Many evaluation measures are used to evaluate social biases in masked language models (MLMs). However, we find that these previously proposed evaluation measures are lacking robustness in scenarios with limited datasets. This is because these measures are obtained by comparing the pseudo-log-likelihood (PLL) scores of the stereotypical and anti-stereotypical samples using an indicator function. The disadvantage is the limited mining of the PLL score sets without capturing its distributional information. In this paper, we represent a PLL score set as a Gaussian distribution and use Kullback Leibler (KL) divergence and Jensen Shannon (JS) divergence to construct evaluation measures for the distributions of stereotypical and anti-stereotypical PLL scores. Experimental results on the publicly available datasets StereoSet (SS) and CrowS-Pairs (CP) show that our proposed measures are significantly more robust and interpretable than those proposed previously.
翻訳日:2024-01-23 15:44:44 公開日:2024-01-21
# 遅延学習率低下の一般化効果の理解

Understanding the Generalization Benefits of Late Learning Rate Decay ( http://arxiv.org/abs/2401.11600v1 )

ライセンス: Link先を確認
Yinuo Ren, Chao Ma, Lexing Ying(参考訳) なぜニューラルネットワークは、長期間にわたって大きな学習率で訓練されているのか? 本稿では,ニューラルネットワークにおけるトレーニングとテスト損失の関係について考察する。 これらの損失を可視化することで,学習率が大きいトレーニング軌道がトレーニング損失の最小多様体をナビゲートし,最終的にテスト損失最小近傍に近づくことに注意する。 これらの知見に触発されて、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを導入する。 モデル上でSGDを用いた学習過程を調べた結果,学習率の大きな拡張段階が,学習損失の最小限の標準解へと移行し,ほぼ最適の一般化を実現し,遅延学習率の減衰による経験的に観察されたメリットを実証した。

Why do neural networks trained with large learning rates for a longer time often lead to better generalization? In this paper, we delve into this question by examining the relation between training and testing loss in neural networks. Through visualization of these losses, we note that the training trajectory with a large learning rate navigates through the minima manifold of the training loss, finally nearing the neighborhood of the testing loss minimum. Motivated by these findings, we introduce a nonlinear model whose loss landscapes mirror those observed for real neural networks. Upon investigating the training process using SGD on our model, we demonstrate that an extended phase with a large learning rate steers our model towards the minimum norm solution of the training loss, which may achieve near-optimal generalization, thereby affirming the empirically observed benefits of late learning rate decay.
翻訳日:2024-01-23 15:44:27 公開日:2024-01-21
# TetraLoss: モーフィング攻撃に対する顔認識のロバスト性の改善

TetraLoss: Improving the Robustness of Face Recognition against Morphing Attacks ( http://arxiv.org/abs/2401.11598v1 )

ライセンス: Link先を確認
Mathias Ibsen, L\'azaro J. Gonz\'alez-Soler, Christian Rathgeb, Christoph Busch(参考訳) 顔認識システムは、国境管理における生体認証などの高セキュリティアプリケーションに広く利用されている。 精度は高いものの、顔のモーフィングなどのデジタル操作が顔認識システムにセキュリティの脅威をもたらすことはよく知られている。 悪意のあるアクターは、id文書発行プロセスによって提供される機能を利用して、モーフィック画像を含むid文書を取得することができる。 したがって、形態素画像の作成に寄与した被験者は、ID文書を高い確率で利用して、自動顔認識システムを回避することができる。 近年では、このリスクに対処するために、非参照(単一画像)と差動モーフィング攻撃検出器が提案されている。 これらのシステムは通常、顔認識システムとは独立して評価され、顔認識プロセスは考慮されない。 既存のほとんどの研究とは対照的に、深層学習に基づく顔認識システムを顔形態攻撃に対してより堅牢なものにするための新しい手法を提案する。 そこで本研究では,生体認証性能を保ちつつ,埋込み空間における顔画像と寄与対象とを分離する新たな損失関数であるtetralossを紹介する。 総合的な評価により,本手法は他のベースライン法を著しく上回りながら,元のシステムを大幅に向上させることができることを示した。

Face recognition systems are widely deployed in high-security applications such as for biometric verification at border controls. Despite their high accuracy on pristine data, it is well-known that digital manipulations, such as face morphing, pose a security threat to face recognition systems. Malicious actors can exploit the facilities offered by the identity document issuance process to obtain identity documents containing morphed images. Thus, subjects who contributed to the creation of the morphed image can with high probability use the identity document to bypass automated face recognition systems. In recent years, no-reference (i.e., single image) and differential morphing attack detectors have been proposed to tackle this risk. These systems are typically evaluated in isolation from the face recognition system that they have to operate jointly with and do not consider the face recognition process. Contrary to most existing works, we present a novel method for adapting deep learning-based face recognition systems to be more robust against face morphing attacks. To this end, we introduce TetraLoss, a novel loss function that learns to separate morphed face images from its contributing subjects in the embedding space while still preserving high biometric verification performance. In a comprehensive evaluation, we show that the proposed method can significantly enhance the original system while also significantly outperforming other tested baseline methods.
翻訳日:2024-01-23 15:44:10 公開日:2024-01-21
# 小市場での貿易から利益を最大化するための学習

Learning to Maximize Gains From Trade in Small Markets ( http://arxiv.org/abs/2401.11596v1 )

ライセンス: Link先を確認
Moshe Babaioff, Amitai Frey, Noam Nisan(参考訳) 貿易(社会福祉)の利益を最大化するための二面市場(二重オークション)を、(支配的戦略)インセンティブ互換性と予算均衡の制約の下で設計する問題について検討する。 我々の目標は、多項式数のサンプルが与えられた未知の分布に対してそうすることである。 我々の最初の結果は、1つの売り手と2つの買い手の間でも価値の分布が相関している場合の一般的な不可能であり、1つの売り手と1つの買い手(両立取引)がこれを可能にする場合とは対照的である。 第2の結果は,有限支持分布と明示的に与えられた独立分布の最適機構を計算するための新しいアルゴリズムに基づく独立分布の場合,1つの売り手と2人の買い手にとって効率的な学習アルゴリズムである。 どちらの結果も、予算バランスの強い(支配-戦略)インセンティブ互換メカニズムの特性に大きく依存している。

We study the problem of designing a two-sided market (double auction) to maximize the gains from trade (social welfare) under the constraints of (dominant-strategy) incentive compatibility and budget-balance. Our goal is to do so for an unknown distribution from which we are given a polynomial number of samples. Our first result is a general impossibility for the case of correlated distributions of values even between just one seller and two buyers, in contrast to the case of one seller and one buyer (bilateral trade) where this is possible. Our second result is an efficient learning algorithm for one seller and two buyers in the case of independent distributions which is based on a novel algorithm for computing optimal mechanisms for finitely supported and explicitly given independent distributions. Both results rely heavily on characterizations of (dominant-strategy) incentive compatible mechanisms that are strongly budget-balanced.
翻訳日:2024-01-23 15:43:49 公開日:2024-01-21
# 量子平均力ギブズ状態に対する局所高調波近似

Local Harmonic Approximation to Quantum Mean Force Gibbs State ( http://arxiv.org/abs/2401.11595v1 )

ライセンス: Link先を確認
Prem Kumar(参考訳) 量子系と浴槽の相互作用の強さが無視できない場合、平衡状態はギブス状態から逸脱することができる。 ここでは、任意の1次元ポテンシャルの粒子に対するそのような平均力ギブス状態の近似式を求め、ボゾン浴と相互作用する。 この近似状態は、系バス結合または温度が大きい場合、または系のバス特異パラメータと比較して第3および上位のポテンシャル微分が小さい場合に正確である。 その結果,近年の文献から得られた超強結合と高温の相関が回復した。 次に, この手法を用いて, 四分極発振器や四分極二重ウェルポテンシャル中の粒子などの系の研究を行う。 文献で最近研究されたDNA(Slocombe et al., Comm. Phys., vol. 5, No. 1, pp. 109, 2022]のプロトントンネル問題を解析するためにも,本手法を用いた。

When the strength of interaction between a quantum system and bath is non-negligible, the equilibrium state can deviate from the Gibbs state. Here, we obtain an approximate expression for such a mean force Gibbs state for a particle in an arbitrary one dimensional potential, interacting with a bosonic bath. This approximate state is accurate when either the system-bath coupling or the temperature is large, or when the third and higher derivatives of the potential are small compared to certain system-bath specific parameters. We show that our result recovers the ultra strong coupling and high temperature results recently derived in literature. We then apply this method to study some systems like a quartic oscillator and a particle in a quartic double-well potential. We also use our method to analyze the proton tunneling problem in a DNA recently studied in literature [Slocombe et al., Comm. Phys., vol. 5, no. 1, p. 109, 2022], where our results suggest the equilibrium value of the probability of mutation to be orders of magnitude lower than the steady state value obtained there ($10^{-8}$ vs $10^{-4}$).
翻訳日:2024-01-23 15:43:33 公開日:2024-01-21
# 階層型フェデレーション学習における微分プライバシー : 形式的分析と評価

Differential Privacy in Hierarchical Federated Learning: A Formal Analysis and Evaluation ( http://arxiv.org/abs/2401.11592v1 )

ライセンス: Link先を確認
Frank Po-Chen Lin and Christopher Brinton(参考訳) フェデレーション学習(fl)はネットワーク上の生データの送信を排除しているが、通信されたモデルパラメータからのプライバシ侵害に対して脆弱である。 本研究では,flに固有のプライバシ利用トレードオフの改善を目的とした,dp-enhanced fl方法論である差分プライベート階層型連合学習(dp-hfl)を定式化する。 最近の階層微分プライバシー(HDP)の提案に基づいて、DP-HFLの重要な概念の1つは、特定のサブネットワーク内の信頼モデルに従って、確立されたFL階層(エッジデバイス、エッジサーバ、クラウドサーバ)の異なる層にDPノイズ注入を適用することである。 本研究では,DP-HFLの収束挙動を包括的に解析し,ネットワーク階層,信頼モデル,ターゲットのプライバシレベルに応じて,モデルトレーニングプロセスが定常性ギャップにサブライン的に収束するパラメータチューニングの条件を明らかにする。 その後の数値評価により、dp-hflは異なるプライバシー予算のベースラインに対する収束速度を大幅に改善し、ネットワーク構成がトレーニングに与える影響を検証することが示されている。

While federated learning (FL) eliminates the transmission of raw data over a network, it is still vulnerable to privacy breaches from the communicated model parameters. In this work, we formalize Differentially Private Hierarchical Federated Learning (DP-HFL), a DP-enhanced FL methodology that seeks to improve the privacy-utility tradeoff inherent in FL. Building upon recent proposals for Hierarchical Differential Privacy (HDP), one of the key concepts of DP-HFL is adapting DP noise injection at different layers of an established FL hierarchy -- edge devices, edge servers, and cloud servers -- according to the trust models within particular subnetworks. We conduct a comprehensive analysis of the convergence behavior of DP-HFL, revealing conditions on parameter tuning under which the model training process converges sublinearly to a stationarity gap, with this gap depending on the network hierarchy, trust model, and target privacy level. Subsequent numerical evaluations demonstrate that DP-HFL obtains substantial improvements in convergence speed over baselines for different privacy budgets, and validate the impact of network configuration on training.
翻訳日:2024-01-23 15:43:10 公開日:2024-01-21
# エンタングルビーム反射法とグースH\"アンチェンシフト

Entangled-Beam Reflectometry and Goos-H\"anchen Shift ( http://arxiv.org/abs/2401.11586v1 )

ライセンス: Link先を確認
Q. Le Thien, R. Pynn, and G. Ortiz(参考訳) 本研究では,材料表面や薄膜から空間的相関(磁性,非磁性)情報を抽出するエンタングルビーム反射法を提案する。 我々の振幅・位相感度技術は、物質または光波の入射角のプローブビームのコヒーレントな性質を利用して、表面から反射する。 このような反射は、表面の空間構造をプローブの幾何学的および位相的から派生したgoos-h\"anchenシフトにエンコードする。 これらのシフトが波束幅に依存するかを調査し,スピンパスモードを絡み合った中性子ビームを用いた平面内周期(非)磁気構造の場合,その技術を説明する。

We introduce the technique of Entangled-Beam Reflectometry for extracting spatially correlated (magnetic or non-magnetic) information from material surfaces or thin films. Our amplitude- and phase-sensitive technique exploits the coherent nature of an incoming entangled probe beam, of matter or light waves, undergoing reflection from the surface. Such reflection encodes the surface spatial structure into the probe's geometric and phase-derived Goos-H\"anchen shifts, which can then be measured to unveil the structure. We investigate the way these shifts depend on the wave packet widths, and illustrate our technique in the case of in-plane periodic (non-)magnetic structures by utilizing spin-path mode-entangled neutron beams.
翻訳日:2024-01-23 15:42:47 公開日:2024-01-21
# 非対流対向ネットワークによる熱画像の校正と補正

Thermal Image Calibration and Correction using Unpaired Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2401.11582v1 )

ライセンス: Link先を確認
Hossein Rajoli, Pouya Afshin, Fatemeh Afghah(参考訳) 無人航空機(UAV)は、山火事の監視に柔軟で費用対効果の高いソリューションを提供する。 しかし、野火による広範囲な配備は、運用ガイドラインの欠如と航空機システムへの潜在的な干渉によって妨げられている。 したがって、空中画像を用いたワイルドファイア検出とキャラクタリゼーションのためのディープラーニングモデルの開発の進展は、既存のデータセットの可用性、サイズ、品質に制限される。 本稿では,現在の空中ワイルドファイアデータセットの品質向上とカメラ技術の進歩を両立させるソリューションを提案する。 提案手法は、総合的で標準化された大規模画像データセットを作成するためのソリューションを提供する。 本稿では,CycleGANをベースとした山火事データセット向上のためのパイプラインと,両方向のジェネレータの属性条件としてペアRGB画像を統合する新たな融合手法を提案する。

Unmanned aerial vehicles (UAVs) offer a flexible and cost-effective solution for wildfire monitoring. However, their widespread deployment during wildfires has been hindered by a lack of operational guidelines and concerns about potential interference with aircraft systems. Consequently, the progress in developing deep-learning models for wildfire detection and characterization using aerial images is constrained by the limited availability, size, and quality of existing datasets. This paper introduces a solution aimed at enhancing the quality of current aerial wildfire datasets to align with advancements in camera technology. The proposed approach offers a solution to create a comprehensive, standardized large-scale image dataset. This paper presents a pipeline based on CycleGAN to enhance wildfire datasets and a novel fusion method that integrates paired RGB images as attribute conditioning in the generators of both directions, improving the accuracy of the generated images.
翻訳日:2024-01-23 15:42:31 公開日:2024-01-21
# 最適化とは何か? 深層学習に基づく推薦システムの人間中心評価

What Are We Optimizing For? A Human-centric Evaluation Of Deep Learning-based Recommender Systems ( http://arxiv.org/abs/2401.11632v1 )

ライセンス: Link先を確認
Ruixuan Sun, Avinash Akella, Xinyi Wu, Ruoyan Kong, Joseph A. Konstan(参考訳) 推薦システム(RecSys)における深層学習ベース(DL)モデルは,ユーザの嗜好を予測する上で顕著な精度で認識されている。 しかしながら、それらの性能は、単純な関心マッチング以上の様々な次元を含む人間中心の観点からの包括的な評価を欠いていることが多い。 本研究では,最近の5つのオープンソースDLモデルによって生成されるレコメンデーションの品質を評価するために,7つのメトリクスを組み込んだ頑健な人間中心評価フレームワークを開発した。 評価データセットは、オフラインベンチマークデータと、実際の445ユーザから収集した個人化されたオンラインレコメンデーションフィードバックの両方から構成される。 1) 異なるdlモデルは多次元の指標において異なる長所と短所を持っていること, (2) ユーザは推奨において少なくとも1つの人間の値と精度の組み合わせを望んでいること, 3) 異なる値の組み合わせの度合いをユーザの好みのレベルまで慎重に実験する必要があること,の2つを見いだした。

Deep learning-based (DL) models in recommender systems (RecSys) have gained significant recognition for their remarkable accuracy in predicting user preferences. However, their performance often lacks a comprehensive evaluation from a human-centric perspective, which encompasses various dimensions beyond simple interest matching. In this work, we have developed a robust human-centric evaluation framework that incorporates seven diverse metrics to assess the quality of recommendations generated by five recent open-sourced DL models. Our evaluation datasets consist of both offline benchmark data and personalized online recommendation feedback collected from 445 real users. We find that (1) different DL models have different pros and cons in the multi-dimensional metrics that we test with; (2) users generally want a combination of accuracy with at least one another human values in the recommendation; (3) the degree of combination of different values needs to be carefully experimented to user preferred level.
翻訳日:2024-01-23 15:33:24 公開日:2024-01-21
# テキストから画像へのクロスモーダル生成:システムレビュー

Text-to-Image Cross-Modal Generation: A Systematic Review ( http://arxiv.org/abs/2401.11631v1 )

ライセンス: Link先を確認
Maciej \.Zelaszczyk, Jacek Ma\'ndziuk(参考訳) テキストから視覚データを生成するための「クロスモーダル生成」の角度からの研究をレビューする。 この視点では、入力テキストの処理と視覚的出力の生成を目的とした様々な手法間の並列を、分析を狭い部分領域に限定することなく描画できる。 また、フィールド内の一般的なテンプレートを識別し、類似のメソッドのプール内と研究の行間で比較、対比する。 本稿では,テキストから画像へ生成する手法,テキストから映像へ生成する手法,画像編集手法,自己教師付き手法,グラフベースの手法について解説する。 この議論では,2016-2022年の第8回機械学習カンファレンスで発表された研究論文に注目し,概略された検索基準に合致しない関連論文をいくつか取り入れた。 調査の結果,本地域での論文数の増加が示唆され,研究のギャップと潜在的調査線が強調された。 我々の知る限り、これは「クロスモーダル世代」の観点から、テキスト・画像生成を体系的に検討する最初のレビューである。

We review research on generating visual data from text from the angle of "cross-modal generation." This point of view allows us to draw parallels between various methods geared towards working on input text and producing visual output, without limiting the analysis to narrow sub-areas. It also results in the identification of common templates in the field, which are then compared and contrasted both within pools of similar methods and across lines of research. We provide a breakdown of text-to-image generation into various flavors of image-from-text methods, video-from-text methods, image editing, self-supervised and graph-based approaches. In this discussion, we focus on research papers published at 8 leading machine learning conferences in the years 2016-2022, also incorporating a number of relevant papers not matching the outlined search criteria. The conducted review suggests a significant increase in the number of papers published in the area and highlights research gaps and potential lines of investigation. To our knowledge, this is the first review to systematically look at text-to-image generation from the perspective of "cross-modal generation."
翻訳日:2024-01-23 15:33:07 公開日:2024-01-21
# 回帰問題としてのオフライン強化学習

Reframing Offline Reinforcement Learning as a Regression Problem ( http://arxiv.org/abs/2401.11630v1 )

ライセンス: Link先を確認
Prajwal Koirala and Cody Fleming(参考訳) 本研究では,決定木で解ける回帰問題として,オフライン強化学習の改革を提案する。 入力状態,リターンツーゴー(rtg),タイムステップ情報に基づく行動予測を目標として,勾配ブーストツリーではエージェントトレーニングや推論が非常に高速であり,前者が1分未満の時間を要することを観測した。 この修正問題に内在する単純化にもかかわらず、エージェントは少なくとも確立された方法と同等の性能を示す。 このアサーションは、D4RL Gym-MuJoCoタスクに関連する標準データセットでテストすることで検証される。 さらに,2つの極端なケースでテストすることにより,エージェントが一般化する能力,高度に歪んだ専門家データセットでも効果的に返却分布をモデル化する方法,スパース/遅延報酬のあるシナリオにおける堅牢なパフォーマンスを示す方法についても論じた。

The study proposes the reformulation of offline reinforcement learning as a regression problem that can be solved with decision trees. Aiming to predict actions based on input states, return-to-go (RTG), and timestep information, we observe that with gradient-boosted trees, the agent training and inference are very fast, the former taking less than a minute. Despite the simplification inherent in this reformulated problem, our agent demonstrates performance that is at least on par with established methods. This assertion is validated by testing it across standard datasets associated with D4RL Gym-MuJoCo tasks. We further discuss the agent's ability to generalize by testing it on two extreme cases, how it learns to model the return distributions effectively even with highly skewed expert datasets, and how it exhibits robust performance in scenarios with sparse/delayed rewards.
翻訳日:2024-01-23 15:32:45 公開日:2024-01-21
# バンダゴンから飛び降りる? NBAファンコミュニティにおけるバンドワゴンファンの将来ロイヤリティの特質

Jump off the Bandwagon? Characterizing Bandwagon Fans' Future Loyalty in Online NBA Fan Communities ( http://arxiv.org/abs/2401.11629v1 )

ライセンス: Link先を確認
Yichen Wang, Qin Lv(参考訳) 近年,オンラインユーザダイナミクスの研究が盛んに行われており,ユーザアイデンティティの変化に対する貴重な洞察を提供する上で,最も代表的なトピックの1つである。 以前の多くの研究は、バンドワゴンの利用者を特徴付け、コミュニティの忠誠の予測のような実用的な問題に取り組むためにそのような特徴を利用した。 しかし、長期的視点からバンドワゴンの動力学を調査した者はほとんどいない。 本研究では,オンラインファンの忠誠心の文脈における長期的バンドワゴンユーザ行動の特徴と予測に焦点を当てた。 reddit上のnba関連掲示板から収集されたデータセットを用いて、バンドワゴンファンの長期的な忠誠状態を追跡し、潜在行動特性を把握し、次にホームチームとの次のスポーツシーズン忠誠状態を予測するための計算モデルを提案する。 分析の結果、ほとんどのファンのバンドワゴンは一時的なスイッチであり、そのほとんどが長期的には戻ってくることが判明した。 さらに、ホームチームに対する忠誠度が異なるオンラインファンは、アクティビティレベル、言語使用量、返信ネットワーク特性など、さまざまな面で異なる行動を示している。 次に,このような行動特性に基づくモデルを提案し,その次シーズンの忠誠状態を予測する。 その有望な性能は、我々の行動特性の有効性を示す。

Online user dynamics has been actively studied in recent years and bandwagon behavior is one of the most representative topics which can provide valuable insights for user identity change. Many previous studies have characterized bandwagon users and leveraged such characteristics to tackle practical problems such as community loyalty prediction. However, very few of them have investigated bandwagon dynamics from a long-term perspective. In this work, we focus on characterizing and predicting long-term bandwagon user behaviors in the context of online fan loyalty. Using a dataset collected from NBA-related discussion forums on Reddit, we trace the long-term loyalty status of bandwagon fans to capture their latent behavioral characteristics and then propose a computational model to predict their next sport season loyalty status with their home teams. Our analyses reveal that bandwagoning for most fans is a temporary switch and most of them will be back in the long term. In addition, online fans with different loyalty levels to their home teams have demonstrated different behaviors in various aspects, such as activity level, language usage and reply network properties. We then propose a model based on such behavioral characteristics to predict their next-season loyalty status. Its promising performance demonstrates the effectiveness of our behavior characterization.
翻訳日:2024-01-23 15:32:28 公開日:2024-01-21
# ベイズニューラルネットワークにおける確率的ロバスト性のタイト検証

Tight Verification of Probabilistic Robustness in Bayesian Neural Networks ( http://arxiv.org/abs/2401.11627v1 )

ライセンス: Link先を確認
Ben Batten, Mehran Hosseini, Alessio Lomuscio(参考訳) ベイズニューラルネットワーク(BNN)の確率論的堅牢性に関する厳密な保証を2つのアルゴリズムで計算する。 BNNの堅牢性を保証するコンピューティングは、標準ニューラルネットワーク(NN)の堅牢性を検証するよりもはるかに難しいタスクである。 さらに、MILP(Mixed-Integer Linear Programming)に基づくような標準NNの検証のための厳密で完全なアプローチは、重みを符号化する変数の連続乗算による多項式項のため、直接BNNの検証には使用できない。 提案手法は,反復展開とネットワークの勾配を用いてパラメータ空間を効率的かつ効果的に探索し,bnnに対して任意の検証アルゴリズムを適用できる。 我々のアルゴリズムがSoAよりも厳密な境界を計算することの証明に加えて、MNISTやCIFAR10といった標準ベンチマークでSoAに対してアルゴリズムを評価し、私たちのアルゴリズムがSoAよりも最大40%厳密な境界を計算していることを示す。

We introduce two algorithms for computing tight guarantees on the probabilistic robustness of Bayesian Neural Networks (BNNs). Computing robustness guarantees for BNNs is a significantly more challenging task than verifying the robustness of standard Neural Networks (NNs) because it requires searching the parameters' space for safe weights. Moreover, tight and complete approaches for the verification of standard NNs, such as those based on Mixed-Integer Linear Programming (MILP), cannot be directly used for the verification of BNNs because of the polynomial terms resulting from the consecutive multiplication of variables encoding the weights. Our algorithms efficiently and effectively search the parameters' space for safe weights by using iterative expansion and the network's gradient and can be used with any verification algorithm of choice for BNNs. In addition to proving that our algorithms compute tighter bounds than the SoA, we also evaluate our algorithms against the SoA on standard benchmarks, such as MNIST and CIFAR10, showing that our algorithms compute bounds up to 40% tighter than the SoA.
翻訳日:2024-01-23 15:32:06 公開日:2024-01-21
# フリーロングシンク変圧器(フライルト)

Freely Long-Thinking Transformer (FraiLT) ( http://arxiv.org/abs/2401.11626v1 )

ライセンス: Link先を確認
Akbay Tabak(参考訳) Freely Long-Thinking Transformer (FraiLT) は、サイズをスケールアップすることなく処理能力を向上させるために設計された改良型トランスモデルである。 再帰的なアプローチを採用し、レイヤのサブセットを複数回反復し、繰り返しエンコーディングを導入して、これらのサイクル全体の認識を維持する。 イテレーションエンコーディングにより、frailtはコンパクトな形式でより大きなモデルの解釈的深さを達成することができる。 合成ストーリーデータセットで評価すると、FriLTはより大きなモデルよりも優れており、メモリ要求を減らしながら高品質のパフォーマンスを提供する能力を示している。 このモデルは、より効率的でアクセス可能な言語モデルへの一歩である。

Freely Long-Thinking Transformer (FraiLT) is an improved transformer model designed to enhance processing capabilities without scaling up size. It utilizes a recursive approach, iterating over a subset of layers multiple times, and introduces iteration encodings to maintain awareness across these cycles. Iteration encoding allows FraiLT to achieve the interpretive depth of larger models in a compact form. When evaluated on a synthetic story dataset, FraiLT outperformed larger models, showcasing its ability to deliver high-quality performance while reducing memory demands. This model represents a step forward towards more efficient and accessible language models.
翻訳日:2024-01-23 15:31:46 公開日:2024-01-21
# 言語モデルを用いたインコンテクスト学習 : 調査

In-context Learning with Retrieved Demonstrations for Language Models: A Survey ( http://arxiv.org/abs/2401.11624v1 )

ライセンス: Link先を確認
an Luo, Xin Xu, Yue Liu, Panupong Pasupat, Mehran Kazemi(参考訳) 言語モデル、特に訓練済みの大規模言語モデルでは、入力コンテキストでいくつかのデモを行うだけで、新しいタスクに適応できる少数のインコンテキスト学習者(ICL)として顕著な能力を示した。 しかし、モデルがiclを実行する能力は、少数のデモの選択に敏感である。 最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。 実演検索の実装は比較的簡単で,既存のデータベースや検索システムを活用している。 これは学習プロセスの効率性とスケーラビリティを向上するだけでなく、手作業によるサンプル選択に固有のバイアスを低減することも示されている。 iclにおける研究成果の奨励と研究の進展を踏まえ,本研究の広範なレビューを行った。 本研究では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について検討し,比較する。

Language models, especially pre-trained large language models, have showcased remarkable abilities as few-shot in-context learners (ICL), adept at adapting to new tasks with just a few demonstrations in the input context. However, the model's ability to perform ICL is sensitive to the choice of the few-shot demonstrations. Instead of using a fixed set of demonstrations, one recent development is to retrieve demonstrations tailored to each input query. The implementation of demonstration retrieval is relatively straightforward, leveraging existing databases and retrieval systems. This not only improves the efficiency and scalability of the learning process but also has been shown to reduce biases inherent in manual example selection. In light of the encouraging results and growing research in ICL with retrieved demonstrations, we conduct an extensive review of studies in this area. In this survey, we discuss and compare different design choices for retrieval models, retrieval training procedures, and inference algorithms.
翻訳日:2024-01-23 15:31:35 公開日:2024-01-21