このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231103となっている論文です。

PDF登録状況(公開日: 20231103)

TitleAuthorsAbstract論文公表日・翻訳日
# CoPriv:通信効率の良いプライベート推論のためのネットワーク/プロトコル協調最適化

CoPriv: Network/Protocol Co-Optimization for Communication-Efficient Private Inference ( http://arxiv.org/abs/2311.01737v1 )

ライセンス: Link先を確認
Wenxuan Zeng, Meng Li, Haichuan Yang, Wen-jie Lu, Runsheng Wang, Ru Huang, (参考訳) セキュアな2次元計算(2PC)に基づくディープニューラルネットワーク(DNN)推論は、暗号的にセキュアなプライバシ保護を提供するが、巨大な通信による遅延オーバヘッドの桁違いに悩まされる。 これまでの作業は、通信オーバーヘッドを近似し、通信効率を改善するためにReLUを減らすことに集中するために、ReLUカウントのプロキシメトリックに大きく依存していました。 しかし, 現在では通信の大部分に寄与する線形および非線形操作の無知により, 最先端(SOTA)2PCプロトコルの通信削減が制限されている。 本研究では,2PC推論プロトコルとDNNアーキテクチャを協調的に最適化するフレームワークであるCoPrivを提案する。 CoPrivはWinograd変換に基づく畳み込みのための新しい2PCプロトコルを備え、推論通信を大幅に削減するためにDNN対応の最適化を開発している。 CoPrivはさらに、提案プロトコルと互換性のある2PC対応ネットワーク最適化アルゴリズムを開発し、線形および非線形の全ての操作に対する通信を同時に削減する。 我々はCoPrivをSOTA 2PCプロトコルであるCrypTFlow2と比較し、CIFAR-100上でResNet-18とResNet-32の2.1倍の通信削減を示す。 また、CoPrivをSNL、MetaPruningなどを含むSOTAネットワーク最適化手法と比較する。 CoPrivは、SNLよりも高い精度で、9.98倍と3.88倍の通信削減を実現している。 CoPrivはまた、MetaPruningに比べて3%以上の精度で3.87倍のオンラインコミュニケーション削減を実現している。

Deep neural network (DNN) inference based on secure 2-party computation (2PC) can offer cryptographically-secure privacy protection but suffers from orders of magnitude latency overhead due to enormous communication. Previous works heavily rely on a proxy metric of ReLU counts to approximate the communication overhead and focus on reducing the ReLUs to improve the communication efficiency. However, we observe these works achieve limited communication reduction for state-of-the-art (SOTA) 2PC protocols due to the ignorance of other linear and non-linear operations, which now contribute to the majority of communication. In this work, we present CoPriv, a framework that jointly optimizes the 2PC inference protocol and the DNN architecture. CoPriv features a new 2PC protocol for convolution based on Winograd transformation and develops DNN-aware optimization to significantly reduce the inference communication. CoPriv further develops a 2PC-aware network optimization algorithm that is compatible with the proposed protocol and simultaneously reduces the communication for all the linear and non-linear operations. We compare CoPriv with the SOTA 2PC protocol, CrypTFlow2, and demonstrate 2.1x communication reduction for both ResNet-18 and ResNet-32 on CIFAR-100. We also compare CoPriv with SOTA network optimization methods, including SNL, MetaPruning, etc. CoPriv achieves 9.98x and 3.88x online and total communication reduction with a higher accuracy compare to SNL, respectively. CoPriv also achieves 3.87x online communication reduction with more than 3% higher accuracy compared to MetaPruning.
翻訳日:2024-03-25 13:45:54 公開日:2023-11-03
# 怒りより安全である - 敵の多数派から回復する

Better Safe than Sorry: Recovering after Adversarial Majority ( http://arxiv.org/abs/2310.06338v2 )

ライセンス: Link先を確認
Srivatsan Sridhar, Dionysis Zindros, David Tse, (参考訳) ブロックチェーンプロトコルのセキュリティは、安全性と生存性という2つの特性の組み合わせである。 敵対的な多数派の下では、眠く(断続的にオンライン)クライアントの両方を提供するブロックチェーンプロトコルが存在しないことはよく知られている。 しかし、単一の安全違反によってユーザーが損失を被る可能性があるという点では、安全性がより重要である。 同時に、生命は永遠に失われてはならない。 同期ネットワークでは、敵対的多数派であっても全クライアントの安全を保ち、正直な多数派が回復した後、生き生きを回復できることを示す。 私たちのソリューションは、証明書を持つプロトコル(HotStuff、Streamlet、Tendermintなど)に適用可能なリカバリガジェットの形式を採用しています。

The security of blockchain protocols is a combination of two properties: safety and liveness. It is well known that no blockchain protocol can provide both to sleepy (intermittently online) clients under adversarial majority. However, safety is more critical in that a single safety violation can cause users to lose money. At the same time, liveness must not be lost forever. We show that, in a synchronous network, it is possible to maintain safety for all clients even during adversarial majority, and recover liveness after honest majority is restored. Our solution takes the form of a recovery gadget that can be applied to any protocol with certificates (such as HotStuff, Streamlet, Tendermint, and their variants).
翻訳日:2024-03-19 02:42:56 公開日:2023-11-03
# Nahid:完全自動手術のためのAIベースのアルゴリズム

Nahid: AI-based Algorithm for operating fully-automatic surgery ( http://arxiv.org/abs/2401.08584v1 )

ライセンス: Link先を確認
Sina Saadati(参考訳) 本稿では,ソフトウェアとコンピュータビジョン技術に基づく完全自動手術を実現する手法を初めて提示する。 次に, 外科手術のコンピュータ化の利点と課題について検討した。 最後に, 摘出卵巣子宮内膜症に関する手術について検討し, 本法に基づいて, u-netを用いて子宮内膜症を診断し, 手術中の子宮内膜症を自動的に診断し治療できる, より詳細なアルゴリズムを提案する。

In this paper, for the first time, a method is presented that can provide a fully automated surgery based on software and computer vision techniques. Then, the advantages and challenges of computerization of medical surgery are examined. Finally, the surgery related to isolated ovarian endometriosis disease has been examined, and based on the presented method, a more detailed algorithm is presented that is capable of automatically diagnosing and treating this disease during surgery as proof of our proposed method where a U-net is trained to detect the endometriosis during surgery.
翻訳日:2024-01-22 10:02:43 公開日:2023-11-03
# ロバスト操作で事前訓練された視覚表現が成功する理由

What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? ( http://arxiv.org/abs/2312.12444v1 )

ライセンス: Link先を確認
Kaylee Burns, Zach Witzel, Jubayer Ibn Hamid, Tianhe Yu, Chelsea Finn, Karol Hausman(参考訳) コンピュータビジョンにおける伝達学習の成功に触発されたロボティクスは、画素から学んだポリシーの学習効率と一般化能力を改善する手段として、視覚前訓練を調査してきた。 その目的のために、過去の研究は、操作に関連する特徴を追求するために、人間のタスクを完了した1人称ビデオのような大きなオブジェクトインタラクションデータセットを好んだ。 このアプローチはポリシー学習の効率を向上するが、ロボットアプリケーションで一般的に発生する分散シフトの存在下で、これらの表現がどの程度信頼性が高いかは定かではない。 意外なことに、作業の操作や制御のために設計された視覚表現は、照明やシーンテクスチャの微妙な変化や、イントラクタオブジェクトの導入によって必ずしも一般化されない。 特徴がロバストな表現につながるかを理解するために、15の事前学習された視覚モデルの性能を比較した。 創発的セグメンテーション能力は,vitモデル間の分散一般化の強い予測因子であることがわかった。 この指標によって誘導されるランクオーダーは、以前コンピュータビジョンや機械学習における一般化研究、例えば下流画像ネットの精度、ドメイン内精度、あるいはクエコンフリクトのパフォーマンスによって評価された形状バイアスを導いたメトリクスよりも予測的である。 2つのシミュレートされた操作環境における10タスクの分散シフトのスイートで、この発見を広範囲にテストした。 ALOHA設定では、セグメンテーションスコアは50のデモでオフライントレーニング後の実世界のパフォーマンスを予測する。

Inspired by the success of transfer learning in computer vision, roboticists have investigated visual pre-training as a means to improve the learning efficiency and generalization ability of policies learned from pixels. To that end, past work has favored large object interaction datasets, such as first-person videos of humans completing diverse tasks, in pursuit of manipulation-relevant features. Although this approach improves the efficiency of policy learning, it remains unclear how reliable these representations are in the presence of distribution shifts that arise commonly in robotic applications. Surprisingly, we find that visual representations designed for manipulation and control tasks do not necessarily generalize under subtle changes in lighting and scene texture or the introduction of distractor objects. To understand what properties do lead to robust representations, we compare the performance of 15 pre-trained vision models under different visual appearances. We find that emergent segmentation ability is a strong predictor of out-of-distribution generalization among ViT models. The rank order induced by this metric is more predictive than metrics that have previously guided generalization research within computer vision and machine learning, such as downstream ImageNet accuracy, in-domain accuracy, or shape-bias as evaluated by cue-conflict performance. We test this finding extensively on a suite of distribution shifts in ten tasks across two simulated manipulation environments. On the ALOHA setup, segmentation score predicts real-world performance after offline training with 50 demonstrations.
翻訳日:2024-01-15 13:12:47 公開日:2023-11-03
# ドライバー認知の定量的評価による運転属性理解の促進

Enhancing Understanding of Driving Attributes through Quantitative Assessment of Driver Cognition ( http://arxiv.org/abs/2312.12443v1 )

ライセンス: Link先を確認
Pallabjyoti Kakoti, Mukesh Kumar Kamti, Rauf Iqbal, Eeshankur Saikia(参考訳) 本稿では,運転者の脳波データをシミュレーション運転テストで解析する手法を提案する。 我々は,脳の非線形力学のマーカーとしてハースト指数,シャノンエントロピー,フラクタル次元に着目した。 その結果、シャノンエントロピーとフラクタル次元は運転条件遷移時に変化を示し、ハースト指数は学習パターンを描写した記憶保持を反映している。 これらの結果から,運転時の認知状態や運転記憶変化の指標としての非線形力学(NLD)理論のツールが,運転時の認知の非線形力学の理解を促進することが示唆された。 我々の研究は、NLDツールが脳の状態とシステムの分散を解明し、現在のディープラーニングと機械学習モデルとの統合を可能にする可能性を明らかにする。 この統合はアプリケーションを駆動するだけでなく、認知学習にも活用できるため、全体的な生産性と正確性が向上する。

This paper presents a novel approach for analysing EEG data from drivers in a simulated driving test. We focused on the Hurst exponent, Shannon entropy, and fractal dimension as markers of the nonlinear dynamics of the brain. The results show significant trends: Shannon Entropy and Fractal Dimension exhibit variations during driving condition transitions, whereas the Hurst exponent reflects memory retention portraying learning patterns. These findings suggest that the tools of Non-linear Dynamical (NLD) Theory as indicators of cognitive state and driving memory changes for assessing driver performance and advancing the understanding of non-linear dynamics of human cognition in the context of driving and beyond. Our study reveals the potential of NLD tools to elucidate brain state and system variances, enabling their integration into current Deep Learning and Machine Learning models. This integration can extend beyond driving applications and be harnessed for cognitive learning, thereby improving overall productivity and accuracy levels.
翻訳日:2024-01-15 13:12:21 公開日:2023-11-03
# TailorMe: 解剖学的に制約された容積形モデルの自己教師付き学習

TailorMe: Self-Supervised Learning of an Anatomically Constrained Volumetric Human Shape Model ( http://arxiv.org/abs/2312.02173v1 )

ライセンス: Link先を確認
Stephan Wenninger and Fabian Kemper and Ulrich Schwanecke and Mario Botsch(参考訳) 人間の形状空間は、人間の形状の中核要素であり、推論タスクを装うため、広く研究されている。 人間の形状モデルを作成する古典的な方法は、表面テンプレートメッシュを3Dスキャンのデータベースに登録し、主成分分析のような次元削減技術を用いてコンパクトな表現を学ぶ。 これらの形状モデルは、人文計測と学習部分空間を関連づけることで、大域的な形状変化を可能にするが、限定的な局所的な形状制御しか提供しない。 代わりに、骨格骨と軟組織からなる体積解剖学的テンプレートをCAESARデータベースの表面スキャンに登録する。 さらに, 物理的に可能な体積変形移動を用いて, トレーニングデータを全骨格および軟組織の全デカルト積に拡張する。 このデータは、解剖学的に制約された体積的人体形状モデルを自己監督的に学習するために使用される。 結果のTailorMeモデルは、所定の表面スキャンから形状サンプリング、局所的な形状操作、高速な推論を可能にする。

Human shape spaces have been extensively studied, as they are a core element of human shape and pose inference tasks. Classic methods for creating a human shape model register a surface template mesh to a database of 3D scans and use dimensionality reduction techniques, such as Principal Component Analysis, to learn a compact representation. While these shape models enable global shape modifications by correlating anthropometric measurements with the learned subspace, they only provide limited localized shape control. We instead register a volumetric anatomical template, consisting of skeleton bones and soft tissue, to the surface scans of the CAESAR database. We further enlarge our training data to the full Cartesian product of all skeletons and all soft tissues using physically plausible volumetric deformation transfer. This data is then used to learn an anatomically constrained volumetric human shape model in a self-supervised fashion. The resulting TailorMe model enables shape sampling, localized shape manipulation, and fast inference from given surface scans.
翻訳日:2023-12-11 03:33:31 公開日:2023-11-03
# 例題による抽象化? BERTにおける語彙カテゴリー推論の表現的ケーススタディ

Abstraction via exemplars? A representational case study on lexical category inference in BERT ( http://arxiv.org/abs/2312.03708v1 )

ライセンス: Link先を確認
Kanishka Misra, Najoung Kim(参考訳) 経験に基づく説明は、言語学習者が新しい表現に一般化する能力を説明する際に、純粋言語抽象に対して直接反対であると考えられることが多い。 しかし、近年の言語に敏感なタスクにおけるニューラルネットワーク言語モデルの成功は、おそらく抽象概念が例の符号化によって生じることを示唆している。 我々は、LM(BERT)が、Noun/Verb/Adjective/Adverbのような語彙圏に属する新しいトークンの使用を、その使用例の1つだけへの露出から一般化する、既存の実験を適用して、この主張に対する実証的な証拠を提供する。 これらの実験において, 新規トークンの表現行動を分析し, bert が未知表現に一般化する能力は, 2次元空間における既知のカテゴリの領域への新規トークン表現の移動を構成することを見出した。 この結果から,学習者による模範語エンコーディングが,行動の抽象化につながることが示唆された。

Exemplar based accounts are often considered to be in direct opposition to pure linguistic abstraction in explaining language learners' ability to generalize to novel expressions. However, the recent success of neural network language models on linguistically sensitive tasks suggests that perhaps abstractions can arise via the encoding of exemplars. We provide empirical evidence for this claim by adapting an existing experiment that studies how an LM (BERT) generalizes the usage of novel tokens that belong to lexical categories such as Noun/Verb/Adjective/Adverb from exposure to only a single instance of their usage. We analyze the representational behavior of the novel tokens in these experiments, and find that BERT's capacity to generalize to unseen expressions involving the use of these novel tokens constitutes the movement of novel token representations towards regions of known category exemplars in two-dimensional space. Our results suggest that learners' encoding of exemplars can indeed give rise to abstraction like behavior.
翻訳日:2023-12-11 03:19:46 公開日:2023-11-03
# 気候変動によるヒトの移動パターンへの因果モデルの適用

Causal Models Applied to the Patterns of Human Migration due to Climate Change ( http://arxiv.org/abs/2311.14686v1 )

ライセンス: Link先を確認
Kenneth Lai and Svetlana Yanushkevich(参考訳) 気候変動による危機のような大量移住の影響は、環境問題を超えて広がり、教育、医療、安全保障といった社会インフラや公共サービスに大きな影響を及ぼす可能性がある。 これらの危機は文化的障壁や差別といった特定の要素を悪化させ、これらの影響を受けたコミュニティが直面する課題を増幅する。 本稿では,モデルと不均衡評価ツールの組み合わせを通じて,危機管理の文脈における移行危機に対処するための革新的なアプローチを提案する。 ベイジアンネットワークによる因果推論の予測と統合に深層学習を用いることで、社会技術的景観における不均衡とリスクの評価を可能にし、情報的意思決定に重要な洞察を与える。 このフレームワークを通じて、重要なシステムを分析して、移行レベルの変動が彼らに与える影響を理解し、効果的な危機管理戦略を促進することができる。

The impacts of mass migration, such as crisis induced by climate change, extend beyond environmental concerns and can greatly affect social infrastructure and public services, such as education, healthcare, and security. These crises exacerbate certain elements like cultural barriers, and discrimination by amplifying the challenges faced by these affected communities. This paper proposes an innovative approach to address migration crises in the context of crisis management through a combination of modeling and imbalance assessment tools. By employing deep learning for forecasting and integrating causal reasoning via Bayesian networks, this methodology enables the evaluation of imbalances and risks in the socio-technological landscape, providing crucial insights for informed decision-making. Through this framework, critical systems can be analyzed to understand how fluctuations in migration levels may impact them, facilitating effective crisis governance strategies.
翻訳日:2023-12-03 14:06:45 公開日:2023-11-03
# ChatGPTにおける毒性の総合評価

Comprehensive Assessment of Toxicity in ChatGPT ( http://arxiv.org/abs/2311.14685v1 )

ライセンス: Link先を確認
Boyang Zhang, Xinyue Shen, Wai Man Si, Zeyang Sha, Zeyuan Chen, Ahmed Salem, Yun Shen, Michael Backes, Yang Zhang(参考訳) 攻撃的、憎悪的、有害な言語は、常にNLPにおける安全な使用領域において重要であるが挑戦的なトピックである。 ChatGPTのような新興の大規模言語モデル(LLM)は、この脅威をさらに強調する可能性がある。 従来の研究で、ChatGPTは慎重に作り上げた入力を使って有害な反応を発生させることができた。 しかし、ChatGPTが有害反応をいつ発生するかを体系的に調べるために限られた研究がなされている。 本稿では,ChatGPTの毒性を実世界のシナリオと密に一致した指導訓練データセットを用いて総合的に評価する。 その結果,ChatGPTの毒性は,タスク,ドメイン,長さ,言語など,プロンプトの特性や設定によって異なることがわかった。 特に、クリエイティブな文章作成タスクのプロンプトは、有害な反応を誘発する他のタスクよりも2倍高い可能性がある。 ドイツ語とポルトガル語のプロンプトはまた、反応毒性を2倍にすることができる。 さらに、以前の研究で設計された特定の故意に有害なプロンプトは、もはや有害な反応を生じないことがわかった。 私たちの発見によって、モデル開発者がこれらのAIシステムとユーザをよりよく規制し、望ましくないアウトプットを避けることができることを期待しています。

Moderating offensive, hateful, and toxic language has always been an important but challenging topic in the domain of safe use in NLP. The emerging large language models (LLMs), such as ChatGPT, can potentially further accentuate this threat. Previous works have discovered that ChatGPT can generate toxic responses using carefully crafted inputs. However, limited research has been done to systematically examine when ChatGPT generates toxic responses. In this paper, we comprehensively evaluate the toxicity in ChatGPT by utilizing instruction-tuning datasets that closely align with real-world scenarios. Our results show that ChatGPT's toxicity varies based on different properties and settings of the prompts, including tasks, domains, length, and languages. Notably, prompts in creative writing tasks can be 2x more likely than others to elicit toxic responses. Prompting in German and Portuguese can also double the response toxicity. Additionally, we discover that certain deliberately toxic prompts, designed in earlier studies, no longer yield harmful responses. We hope our discoveries can guide model developers to better regulate these AI systems and the users to avoid undesirable outputs.
翻訳日:2023-12-03 14:06:31 公開日:2023-11-03
# リスクベースのAI規制のリスク--負債を真剣に考える

The risks of risk-based AI regulation: taking liability seriously ( http://arxiv.org/abs/2311.14684v1 )

ライセンス: Link先を確認
Martin Kretschmer, Tobias Kretschmer, Alexander Peukert, Christian Peukert(参考訳) AIの多目的で大規模な“基礎モデル”の開発と規制は、大きな投資と新しいアプリケーションが毎日発表されるなど、重要な段階に達したようだ。 一部の専門家は、GPT-4よりも強力なAIシステムのトレーニングに関するモラトリアムを求めている。 議会は世界規模で新しい規制体制の青写真の設定を競う。 この論文は、欧州連合のAI法である最も先進的な法的提案を分析し、欧州連合の機関間の最終的な「対話」交渉の段階にある。 この法律には治外的意味合いがあり、「ブリュッセル効果」と呼ばれることもある。 また、製品安全原則に基づいた特定の有害な結果を防ぐためのリスクベースのアプローチを通じてaiを規制することで、従来の情報通信技術方針からの抜本的な離脱を構成する。 我々は、データ品質と人間の監督に関するAI法の問題的な義務について、レビューと批判を提供する。 我々の提案は、責任を重要な規制メカニズムとして真剣に考えることである。 これは業界にとって、もし法律違反が発生した場合、企業は特に彼らのインプットが何で、どのようにシステムを再訓練して侵害を修復するかを知る必要があることを示唆する。 さらに、開発者とAI技術のデプロイ者の責任を慎重に割り当てることで、内因性および外因性潜在的な害の源泉を区別することを提案する。

The development and regulation of multi-purpose, large "foundation models" of AI seems to have reached a critical stage, with major investments and new applications announced every other day. Some experts are calling for a moratorium on the training of AI systems more powerful than GPT-4. Legislators globally compete to set the blueprint for a new regulatory regime. This paper analyses the most advanced legal proposal, the European Union's AI Act currently in the stage of final "trilogue" negotiations between the EU institutions. This legislation will likely have extra-territorial implications, sometimes called "the Brussels effect". It also constitutes a radical departure from conventional information and communications technology policy by regulating AI ex-ante through a risk-based approach that seeks to prevent certain harmful outcomes based on product safety principles. We offer a review and critique, specifically discussing the AI Act's problematic obligations regarding data quality and human oversight. Our proposal is to take liability seriously as the key regulatory mechanism. This signals to industry that if a breach of law occurs, firms are required to know in particular what their inputs were and how to retrain the system to remedy the breach. Moreover, we suggest differentiating between endogenous and exogenous sources of potential harm, which can be mitigated by carefully allocating liability between developers and deployers of AI technology.
翻訳日:2023-12-03 14:06:13 公開日:2023-11-03
# 人-ロボットインタラクションにおける知識中心応答生成のためのグラフからテキストへのアプローチ

A Graph-to-Text Approach to Knowledge-Grounded Response Generation in Human-Robot Interaction ( http://arxiv.org/abs/2311.16137v1 )

ライセンス: Link先を確認
Nicholas Thomas Walker, Stefan Ultes, Pierre Lison(参考訳) ナレッジグラフは構造化情報を柔軟かつ効率的な方法で表現するためにしばしば用いられるが、位置対話におけるそれらの使用は未検討のままである。 本稿では,対話状態のグラフベース表現に基づく人間-ロボット間相互作用の新しい対話モデルを提案する。 対話状態を表す知識グラフは、言語、位置、マルチモーダル入力を含むロボットセンサからの新たな観察によって継続的に更新され、特に空間的理解のために他のモジュールによってさらに強化される。 ユーザの発話に応答するために使用されるニューラルネットワークモデルは、対話状態グラフをトラバースし、トラバースを自然言語形式に変換する、シンプルだが効果的なグラフからテキストへのメカニズムに依存している。 この状態グラフからテキストへの変換はパラメータ化された関数の集合を用いて行われ、それらのパラメータの値はウィザード・オブ・ozインタラクションの小さなセットに基づいて最適化される。 この変換の後、対話状態グラフのテキスト表現は、エージェント応答をデコードするために使用される大きな言語モデルのプロンプトの一部として含まれる。 提案手法は, 対話相手として行動するヒューマノイドロボットを用いて, 応答生成に対するグラフ・ツー・テキスト機構の影響をユーザ実験により評価した。 ロボットを屋内環境のツアーに沿って移動させた後、参加者は音声対話を用いてロボットと対話し、ツアー中にロボットが何を見たかという質問に答えることができた。 ユーザスコアは、意味三重項として構造化された入力を用いたベースラインと比較して、グラフからテキストへのアプローチを用いた場合のロボット応答の認識事実性の統計的に有意な改善を示す。

Knowledge graphs are often used to represent structured information in a flexible and efficient manner, but their use in situated dialogue remains under-explored. This paper presents a novel conversational model for human--robot interaction that rests upon a graph-based representation of the dialogue state. The knowledge graph representing the dialogue state is continuously updated with new observations from the robot sensors, including linguistic, situated and multimodal inputs, and is further enriched by other modules, in particular for spatial understanding. The neural conversational model employed to respond to user utterances relies on a simple but effective graph-to-text mechanism that traverses the dialogue state graph and converts the traversals into a natural language form. This conversion of the state graph into text is performed using a set of parameterized functions, and the values for those parameters are optimized based on a small set of Wizard-of-Oz interactions. After this conversion, the text representation of the dialogue state graph is included as part of the prompt of a large language model used to decode the agent response. The proposed approach is empirically evaluated through a user study with a humanoid robot that acts as conversation partner to evaluate the impact of the graph-to-text mechanism on the response generation. After moving a robot along a tour of an indoor environment, participants interacted with the robot using spoken dialogue and evaluated how well the robot was able to answer questions about what the robot observed during the tour. User scores show a statistically significant improvement in the perceived factuality of the robot responses when the graph-to-text approach is employed, compared to a baseline using inputs structured as semantic triples.
翻訳日:2023-12-03 13:32:08 公開日:2023-11-03
# ERASER: 推論Serving-AwareアプローチによるMLaaSの機械学習

ERASER: Machine Unlearning in MLaaS via an Inference Serving-Aware Approach ( http://arxiv.org/abs/2311.16136v1 )

ライセンス: Link先を確認
Yuke Hu, Jian Lou, Jiaqi Liu, Feng Lin, Zhan Qin, Kui Ren(参考訳) 過去数年間、MLaaS(Machine Learning-as-a-Service)は、さまざまなアプリケーション領域にわたる革新的なユーザエクスペリエンスを提供するマシンラーニング駆動サービスのサポートに対する需要が急増している。 MLaaSは、多数の個々のデータ所有者から収集されたデータセットを使用してトレーニングされたMLモデルに基づいて、アプリケーションユーザに低い推論レイテンシを提供する。 近年,データ所有者のプライバシのため,データ保護法によって制定された「忘れられる権利(RTBF)」に準拠するため,データ所有者の未学習要求に基づいてトレーニングされたモデルからデータを削除するための機械学習手法が多数提案されている。 しかし、その有望な効率にもかかわらず、既存の機械学習のほとんどすべてのメソッドは、推論要求とは独立して、未学習の要求を処理する。 本稿では,MLaASにおけるmachinE unleaRningのためのERASERフレームワークについて,InferencE seRving-awareアプローチを用いて提案する。 ERASERは、データ所有者からの未学習要求によって引き起こされる未学習の実行を選択的に延期し、RTBFの原則を厳格に守ることで、推論遅延を低減する新しい推論一貫性機構を提案する。 ERASERは、異なるMLaaSシステムの特定の環境と好みに最も適した、テーラーメイドのバリエーションを可能にするために、3つのグループの設計選択を提供する。 さまざまな設定にわたる大規模な実験的な評価により、ERASERの有効性が確認されている。例えば、推論待ち時間の99%と、推論オフブリビオンベースラインに対する計算オーバーヘッドの31%を効果的に節約できる。

Over the past few years, Machine Learning-as-a-Service (MLaaS) has received a surging demand for supporting Machine Learning-driven services to offer revolutionized user experience across diverse application areas. MLaaS provides inference service with low inference latency to application users based on an ML model trained using a dataset collected from numerous individual data owners. Recently, for the sake of data owners' privacy and to comply with the "right to be forgotten (RTBF)" as enacted by data protection legislation, many machine unlearning methods have been proposed to remove data owners' data from trained models upon their unlearning requests. However, despite their promising efficiency, almost all existing machine unlearning methods handle unlearning requests in a manner that is independent of inference requests, which unfortunately introduces new security and privacy vulnerabilities for machine unlearning in MLaaS. In this paper, we propose the ERASER framework for machinE unleaRning in MLaAS via an inferencE seRving-aware approach. ERASER proposes a novel certified inference consistency mechanism that reduces inference latency by selectively postponing unlearning execution incurred by unlearning requests from data owners, while strictly adhering to the RTBF principle. ERASER offers three groups of design choices to allow for tailor-made variants that best suit the specific environments and preferences of different MLaaS systems. Extensive empirical evaluations across various settings confirm ERASER's effectiveness, e.g., it can effectively save up to 99% of inference latency and 31% of computation overhead over the inference-oblivion baseline.
翻訳日:2023-12-03 13:31:39 公開日:2023-11-03
# 衝撃力学の拡張を伴う不確定応力関数に対するディープニューラルネットワークの利用

Use of Deep Neural Networks for Uncertain Stress Functions with Extensions to Impact Mechanics ( http://arxiv.org/abs/2311.16135v1 )

ライセンス: Link先を確認
Garrett Blum and Ryan Doris and Diego Klabjan and Horacio Espinosa and Ron Szalkowski(参考訳) 応力-ひずみ曲線(より一般的には応力関数)は、材料の力学特性の非常に重要な特徴付けである。 しかし、ストレス機能は導出が難しく、特定の材料に狭く調整されることが多い。 さらに, 大きな変形, ひずみ速度, 温度感度, 材料パラメータの複合モデリングが課題となっている。 本稿では,不確実性を捉えるために,量子回帰を用いた状態関数としてストレスをモデル化するための一般化されたディープニューラルネットワーク手法を提案する。 これらのモデルを確率微分方程式を用いて一軸衝撃力学に拡張し、この不確実性を考慮した応力関数を実装するためのフレームワークを提供する。 提案手法は, 機械学習, 機械学習, 移動学習によるストレスに対するアプローチと, 新たに提示されたデータセット上での力学モデリングへの影響をベンチマークする実験である。 複数の競合する影響シナリオを考慮して、材料パラメーターを最適化するフレームワークも提供します。

Stress-strain curves, or more generally, stress functions, are an extremely important characterization of a material's mechanical properties. However, stress functions are often difficult to derive and are narrowly tailored to a specific material. Further, large deformations, high strain-rates, temperature sensitivity, and effect of material parameters compound modeling challenges. We propose a generalized deep neural network approach to model stress as a state function with quantile regression to capture uncertainty. We extend these models to uniaxial impact mechanics using stochastic differential equations to demonstrate a use case and provide a framework for implementing this uncertainty-aware stress function. We provide experiments benchmarking our approach against leading constitutive, machine learning, and transfer learning approaches to stress and impact mechanics modeling on publicly available and newly presented data sets. We also provide a framework to optimize material parameters given multiple competing impact scenarios.
翻訳日:2023-12-03 13:31:10 公開日:2023-11-03
# GNNBleed: GNNモデルに現実的にアクセス可能なグラフでプライベートエッジを公開する推論攻撃

GNNBleed: Inference Attacks to Unveil Private Edges in Graphs with Realistic Access to GNN Models ( http://arxiv.org/abs/2311.16139v1 )

ライセンス: Link先を確認
Zeyu Song and Ehsanul Kabir and Shagufta Mehnaz(参考訳) グラフニューラルネットワーク(gnns)は,グラフ構造化データから学習し,ソーシャルネットワーク分析やレコメンデーションシステムなど,さまざまなアプリケーションに対応する上で不可欠なツールになりつつある。 これらのネットワークの中心は、GNNモデルの予測を導く上で重要なエッジである。 多くのシナリオでは、これらのエッジは個人関係や金融取引などの機密情報を表現している。 しかし、GNNモデル予測への彼らの貢献は、敵のプライバシーを侵害するために悪用される可能性がある。 これらの矛盾する要件に動機づけられた本論文は、敵がブラックボックスgnnモデルアクセスを持つコンテキストにおいて、アクセス制御によってさらに制限されたエッジプライバシを調査し、任意のノード出力に対する直接的洞察を防止する。 本稿では,GNNのメッセージパス機構に基づく一連のプライバシー攻撃を紹介する。 これらの戦略により、敵は2つのノード間の接続を推測することができ、モデルの出力を直接分析するのではなく、それらに接続されたノードの出力を分析することができる。 アクセス制御機構が強化されたシステムであっても、適応的敵はノード間のプライベートな接続を解読し、潜在的に敏感な関係を明らかにし、グラフの機密性を妥協することができる。

Graph Neural Networks (GNNs) have increasingly become an indispensable tool in learning from graph-structured data, catering to various applications including social network analysis, recommendation systems, etc. At the heart of these networks are the edges which are crucial in guiding GNN models' predictions. In many scenarios, these edges represent sensitive information, such as personal associations or financial dealings -- thus requiring privacy assurance. However, their contributions to GNN model predictions may in turn be exploited by the adversary to compromise their privacy. Motivated by these conflicting requirements, this paper investigates edge privacy in contexts where adversaries possess black-box GNN model access, restricted further by access controls, preventing direct insights into arbitrary node outputs. In this context, we introduce a series of privacy attacks grounded on the message-passing mechanism of GNNs. These strategies allow adversaries to deduce connections between two nodes not by directly analyzing the model's output for these pairs but by analyzing the output for nodes linked to them. Our evaluation with seven real-life datasets and four GNN architectures underlines a significant vulnerability: even in systems fortified with access control mechanisms, an adaptive adversary can decipher private connections between nodes, thereby revealing potentially sensitive relationships and compromising the confidentiality of the graph.
翻訳日:2023-12-03 13:16:18 公開日:2023-11-03
# 運動データを用いた後ストロークアームパレシス検出

After-Stroke Arm Paresis Detection using Kinematic Data ( http://arxiv.org/abs/2311.16138v1 )

ライセンス: Link先を確認
Kenneth Lai, Mohammed Almekhlafi, Svetlana Yanushkevich(参考訳) 本稿では,片側腕麻痺・弱さをキネマティックデータを用いて検出する手法を提案する。 本手法では, 時間的畳み込みネットワークと, 知識蒸留によって誘導されるリカレントニューラルネットワークを用いて, 身体に付随する慣性測定ユニットを用いて, 動作中の身体関節の加速度, 回転, 屈曲などの運動的情報をキャプチャする。 この情報は分析され、身体の動きやパターンを認識する。 提案ネットワークは,認識精度が97.99\%,動作分類精度77.69\%で,知識共有により高いパリティ検出精度を達成している。 さらに, 因果的推論を組み込むことにより, 機械学習結果に基づいて, 患者に対する評価スコアや障害レベルなど, 患者の状態に関するさらなる洞察を得ることができる。 本手法は,腕の麻痺・弱さの検出にキネマティックデータと機械学習を用いることの可能性を示す。 以上の結果から,本手法は臨床医や医療従事者にとって有用である可能性が示唆された。

This paper presents an approach for detecting unilateral arm paralysis/weakness using kinematic data. Our method employs temporal convolution networks and recurrent neural networks, guided by knowledge distillation, where we use inertial measurement units attached to the body to capture kinematic information such as acceleration, rotation, and flexion of body joints during an action. This information is then analyzed to recognize body actions and patterns. Our proposed network achieves a high paretic detection accuracy of 97.99\%, with an action classification accuracy of 77.69\%, through knowledge sharing. Furthermore, by incorporating causal reasoning, we can gain additional insights into the patient's condition, such as their Fugl-Meyer assessment score or impairment level based on the machine learning result. Overall, our approach demonstrates the potential of using kinematic data and machine learning for detecting arm paralysis/weakness. The results suggest that our method could be a useful tool for clinicians and healthcare professionals working with patients with this condition.
翻訳日:2023-12-03 13:15:52 公開日:2023-11-03
# 高速R-CNNに基づく深層学習法による車両のスマートトラヒック管理

Smart Traffic Management of Vehicles using Faster R-CNN based Deep Learning Method ( http://arxiv.org/abs/2311.10099v1 )

ライセンス: Link先を確認
Arindam Chaudhuri(参考訳) 文明の絶え間ない成長と、過去数世紀から世界中の都市の近代化により、自動車のスマートな交通管理は、研究コミュニティにとって最も問題となっている。 これはコンピュータビジョンと人工知能領域において難しい問題である。 スマートな交通管理には、車両のセグメンテーション、交通密度の推定、車両の追跡が含まれる。 トラヒックビデオからの車両セグメンテーションは、速度の監視やトラフィックの推定といったニッチなアプリケーションの実現に役立つ。 閉塞や乱雑な背景,密度変動のある交通が存在する場合,この問題は自然界においてより難解になる。 本研究におけるモチベーションを保ちながら、より高速なR-CNNに基づく深層学習手法を車両のセグメンテーションに向けて検討する。 この問題は、適応的背景モデルによるビズ最小化、高速なR-CNNベースサブネット演算、高速なR-CNN初期改良、拡張されたトポロジカルアクティブネットによる結果最適化の4ステップで解決される。 計算フレームワークは適応的背景モデリングのアイデアを使用する。 また、影や照明に関する問題にも対処している。 より高いセグメンテーション精度は、トポロジカルアクティブネット変形モデルによって達成される。 トポロジカルおよび拡張トポロジカルアクティブネットは、記述された変形を達成するのに役立つ。 メッシュ変形はエネルギーの最小化によって達成される。 拡張トポロジカルアクティブネットの修正バージョンにより、セグメンテーション精度が向上する。 この計算フレームワークの優位性を示す実験結果

With constant growth of civilization and modernization of cities all across the world since past few centuries smart traffic management of vehicles is one of the most sorted after problem by research community. It is a challenging problem in computer vision and artificial intelligence domain. Smart traffic management basically involves segmentation of vehicles, estimation of traffic density and tracking of vehicles. The vehicle segmentation from traffic videos helps realization of niche applications such as monitoring of speed and estimation of traffic. When occlusions, background with clutters and traffic with density variations are present, this problem becomes more intractable in nature. Keeping this motivation in this research work, we investigate Faster R-CNN based deep learning method towards segmentation of vehicles. This problem is addressed in four steps viz minimization with adaptive background model, Faster R-CNN based subnet operation, Faster R-CNN initial refinement and result optimization with extended topological active nets. The computational framework uses ideas of adaptive background modeling. It also addresses shadow and illumination related issues. Higher segmentation accuracy is achieved through topological active net deformable models. The topological and extended topological active nets help to achieve stated deformations. Mesh deformation is achieved with minimization of energy. The segmentation accuracy is improved with modified version of extended topological active net. The experimental results demonstrate superiority of this computational framework
翻訳日:2023-11-27 00:59:25 公開日:2023-11-03
# 高度な機械学習フレームワークに基づくデータ駆動負債回収戦略に向けて

Towards a data-driven debt collection strategy based on an advanced machine learning framework ( http://arxiv.org/abs/2311.06292v1 )

ライセンス: Link先を確認
Abel Sancarlos, Edgar Bahilo, Pablo Mozo, Lukas Norman, Obaid Ur Rehma, Mihails Anufrijevs(参考訳) 欧州債務購入市場は2020年に25億ユーロに接近し、2桁レートで成長した。 これは、債務回収と債務購入産業がいかに大きく成長し、それが金融セクターにもたらす重要な影響の例である。 しかし、債務回収プロセス中に十分なリターンを確保するためには、支払いや期待キャッシュフローの傾向を適切に見積もる必要がある。 これらの見積もりは、例えば、品質基準と収益を最大化するために、網羅的な収集の間に異なる戦略を作成するために使われる。 それだけでなく、債務者が友好的な交渉のために手が届かない場合、法的手続きが必要な場合も優先する。 この研究はこれらの推定に対する解決策を提供する。 具体的には、このセクターで採用されている現在の戦略を上回るパフォーマンスを示す、新しい機械学習モデリングパイプラインが提示される。 このソリューションは、最高のモデルキャリブレーションに基づく前処理パイプラインとモデルセレクタを含む。 パフォーマンスは、負債産業の実際の履歴データで検証されます。

The European debt purchase market as measured by the total book value of purchased debt approached 25bn euros in 2020 and it was growing at double-digit rates. This is an example of how big the debt collection and debt purchase industry has grown and the important impact it has in the financial sector. However, in order to ensure an adequate return during the debt collection process, a good estimation of the propensity to pay and/or the expected cashflow is crucial. These estimations can be employed, for instance, to create different strategies during the amicable collection to maximize quality standards and revenues. And not only that, but also to prioritize the cases in which a legal process is necessary when debtors are unreachable for an amicable negotiation. This work offers a solution for these estimations. Specifically, a new machine learning modelling pipeline is presented showing how outperforms current strategies employed in the sector. The solution contains a pre-processing pipeline and a model selector based on the best model calibration. Performance is validated with real historical data of the debt industry.
翻訳日:2023-11-19 14:31:09 公開日:2023-11-03
# FinGPT: 小型言語のための大規模生成モデル

FinGPT: Large Generative Models for a Small Language ( http://arxiv.org/abs/2311.05640v1 )

ライセンス: Link先を確認
Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva, Hanna-Mari Kupari, Filip Ginter, Veronika Laippala, Niklas Muennighoff, Aleksandra Piktus, Thomas Wang, Nouamane Tazi, Teven Le Scao, Thomas Wolf, Osma Suominen, Samuli Sairanen, Mikko Merioksa, Jyrki Heinonen, Aija Vahtola, Samuel Antao, Sampo Pyysalo(参考訳) 大規模言語モデル(LLM)は、NLP以降の多くのタスクに優れるが、ほとんどのオープンモデルは、より小さな言語をカバーしており、LLMの作業は、事前訓練のためにほとんど無制限のデータが利用できる言語に焦点を当てる傾向にある。 本研究では,世界の人口の0.1%未満で話されているフィンランド語のllm作成の課題について考察する。 我々は、Webクロール、ニュース、ソーシャルメディア、電子書籍を組み合わせたフィンランドの広範なデータセットをコンパイルする。 プリトレーニングモデルには2つのアプローチがあります 1)FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。 2) もともとの学習データとフィンランド語を混合した多言語BLOOMモデルの事前学習を継続し、176億のパラメータモデルをBLUUMIと呼ぶ。 モデル評価にはフィンランド語タスクを備えたBIGベンチのバージョンであるFIN-benchを導入する。 また,毒性やバイアスなどのモデル品質も評価した。 私たちのモデルとツールはhttps://turkunlp.org/gpt3-finnish.comで公開されています。

Large language models (LLMs) excel in many tasks in NLP and beyond, but most open models have very limited coverage of smaller languages and LLM work tends to focus on languages where nearly unlimited data is available for pretraining. In this work, we study the challenges of creating LLMs for Finnish, a language spoken by less than 0.1% of the world population. We compile an extensive dataset of Finnish combining web crawls, news, social media and eBooks. We pursue two approaches to pretrain models: 1) we train seven monolingual models from scratch (186M to 13B parameters) dubbed FinGPT, 2) we continue the pretraining of the multilingual BLOOM model on a mix of its original training data and Finnish, resulting in a 176 billion parameter model we call BLUUMI. For model evaluation, we introduce FIN-bench, a version of BIG-bench with Finnish tasks. We also assess other model qualities such as toxicity and bias. Our models and tools are openly available at https://turkunlp.org/gpt3-finnish.
翻訳日:2023-11-19 14:28:55 公開日:2023-11-03
# 画像複雑性に基づくfMRI-BOLD視覚ネットワーク分類 : トポロジカルディスクリプタと深層ハイブリッド学習を用いて

Image complexity based fMRI-BOLD visual network categorization across visual datasets using topological descriptors and deep-hybrid learning ( http://arxiv.org/abs/2311.08417v1 )

ライセンス: Link先を確認
Debanjali Bhattacharya, Neelam Sinha, Yashwanth R. and Amit Chattopadhyay(参考訳) 本研究では,COCO,ImageNet,SUNの視覚データセットに対応するfMRI BOLD時系列を用いて構築した視覚ネットワークの位相特性の違いを解析する新しい手法を提案する。 さまざまな複雑さの5254の画像を見ながらfMRIスキャンを含むBOLD5000データセットが公開されている。 本研究の目的は,これらの視覚データセットと異なる視覚刺激に応答して,ネットワークトポロジがどう異なるかを検討することである。 これを実現するために、COCO、ImageNet、SUNを表す視覚ネットワーク毎に0次元および1次元の永続図を演算する。 トポロジ的永続図から適切な特徴を抽出するために、K平均クラスタリングを実行する。 抽出したK平均クラスター特徴は、これらの視覚ネットワークの分類において90%-95%の範囲で精度の高い新しいディープハイブリッドモデルに供給される。 視覚を理解するために、このタイプの視覚ネットワーク分類は、異なるコンテキストと複雑さを持つ画像を知覚しながら、大胆な信号の差を捉えるために重要である。 さらに、各データセットに関連付けられた視覚ネットワークの特徴的なトポロジカルパターンは、視覚失認や予後などの視覚処理障害を診断し、時間とともに視覚認知の変化を追跡する、将来の神経画像バイオマーカーの開発につながる可能性がある。

This study proposes a new approach that investigates differences in topological characteristics of visual networks, which are constructed using fMRI BOLD time-series corresponding to visual datasets of COCO, ImageNet, and SUN. A publicly available BOLD5000 dataset is utilized that contains fMRI scans while viewing 5254 images of diverse complexities. The objective of this study is to examine how network topology differs in response to distinct visual stimuli from these visual datasets. To achieve this, 0- and 1-dimensional persistence diagrams are computed for each visual network representing COCO, ImageNet, and SUN. For extracting suitable features from topological persistence diagrams, K-means clustering is executed. The extracted K-means cluster features are fed to a novel deep-hybrid model that yields accuracy in the range of 90%-95% in classifying these visual networks. To understand vision, this type of visual network categorization across visual datasets is important as it captures differences in BOLD signals while perceiving images with different contexts and complexities. Furthermore, distinctive topological patterns of visual network associated with each dataset, as revealed from this study, could potentially lead to the development of future neuroimaging biomarkers for diagnosing visual processing disorders like visual agnosia or prosopagnosia, and tracking changes in visual cognition over time.
翻訳日:2023-11-19 14:03:54 公開日:2023-11-03
# 科学研究のための大規模言語モデルに関する学際的展望

An Interdisciplinary Outlook on Large Language Models for Scientific Research ( http://arxiv.org/abs/2311.04929v1 )

ライセンス: Link先を確認
James Boyko, Joseph Cohen, Nathan Fox, Maria Han Veiga, Jennifer I-Hsiu Li, Jing Liu, Bernardo Modenesi, Andreas H. Rauch, Kenneth N. Reid, Soumi Tribedi, Anastasia Visheratina, Xin Xie(参考訳) 本稿では,異なる学術分野における大規模言語モデル(llm)の機能と制約について述べる。 論文の要約,自動構文修正によるコード開発の向上,科学的執筆プロセスの精査など,学術的調査の強化,文献レビューの促進など,具体的な事例について検討する。 同時に、LLMが直面する課題は、広範囲で偏見のあるデータセットへの依存や、それらの使用から生じる潜在的な倫理的ジレンマなど、明確化されます。 我々の批判的議論は、複雑な生物学的配列をモデル化する自然科学から、大規模定性的データを解析する社会科学まで、分野にわたってLLMの様々な影響にまで及んでいる。 我々は、LLMが科学的進歩のバウンダリとバウンダリの両方になり得るかという、微妙な視点を提供することで、結論付けた。

In this paper, we describe the capabilities and constraints of Large Language Models (LLMs) within disparate academic disciplines, aiming to delineate their strengths and limitations with precision. We examine how LLMs augment scientific inquiry, offering concrete examples such as accelerating literature review by summarizing vast numbers of publications, enhancing code development through automated syntax correction, and refining the scientific writing process. Simultaneously, we articulate the challenges LLMs face, including their reliance on extensive and sometimes biased datasets, and the potential ethical dilemmas stemming from their use. Our critical discussion extends to the varying impacts of LLMs across fields, from the natural sciences, where they help model complex biological sequences, to the social sciences, where they can parse large-scale qualitative data. We conclude by offering a nuanced perspective on how LLMs can be both a boon and a boundary to scientific progress.
翻訳日:2023-11-12 19:22:33 公開日:2023-11-03
# 集団意思決定のための大規模言語モデル活用

Leveraging Large Language Models for Collective Decision-Making ( http://arxiv.org/abs/2311.04928v1 )

ライセンス: Link先を確認
Marios Papachristou, Longqi Yang, Chin-Chia Hsu(参考訳) ミーティングのスケジューリング、コラボレーション、プロジェクト計画といった様々な作業コンテキストにおいて、集団的な意思決定は不可欠であるが、様々な個人の好み、様々な作業の焦点、メンバー間の力のダイナミクスのためにしばしば困難である。 そこで本稿では,Large Language Models (LLM) を利用したグループ意思決定を支援するシステムを提案する。 本システムは個人の好みを抽出し,メンバーのかなりの部分を満たす選択肢を提案する。 我々はこのシステムを企業会議スケジューリングに適用する。 合成従業員プロファイルを作成し、LLMを利用してシステム評価を行い、大規模に会話をシミュレートする。 この結果から,LLMシステムとメンバー間の相互作用の低減による効率的な協調が示唆された。 このシステムは、提案されたオプションを時間とともに効果的に洗練し、品質と株式を保証する。 最後に、人間の参加者による嗜好と推論を集約するシステムの能力を評価する調査を行った。 その結果,両次元で高い性能を示すことがわかった。

In various work contexts, such as meeting scheduling, collaborating, and project planning, collective decision-making is essential but often challenging due to diverse individual preferences, varying work focuses, and power dynamics among members. To address this, we propose a system leveraging Large Language Models (LLMs) to facilitate group decision-making by managing conversations and balancing preferences among individuals. Our system extracts individual preferences and suggests options that satisfy a significant portion of the members. We apply this system to corporate meeting scheduling. We create synthetic employee profiles and simulate conversations at scale, leveraging LLMs to evaluate the system. Our results indicate efficient coordination with reduced interactions between members and the LLM-based system. The system also effectively refines proposed options over time, ensuring their quality and equity. Finally, we conduct a survey study involving human participants to assess our system's ability to aggregate preferences and reasoning. Our findings show that the system exhibits strong performance in both dimensions.
翻訳日:2023-11-12 19:22:17 公開日:2023-11-03
# 意味的類似性分類課題におけるモデル・評価データセットのキュレーション限界の文脈化

Contextualizing the Limits of Model & Evaluation Dataset Curation on Semantic Similarity Classification Tasks ( http://arxiv.org/abs/2311.04927v1 )

ライセンス: Link先を確認
Daniel Theron(参考訳) 本稿では,事前学習モデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。 As (1) end-user-facing documentation around the curation of these datasets and pre-trained model training regimes is often not easily accessible and (2) given the lower friction and higher demand to quickly deploy such systems in real-world contexts, our study reinforces prior work showing performance disparities across datasets, embedding techniques and distance metrics, while highlighting the importance of understanding how data is collected, curated and analyzed in semantic similarity classification.

This paper demonstrates how the limitations of pre-trained models and open evaluation datasets factor into assessing the performance of binary semantic similarity classification tasks. As (1) end-user-facing documentation around the curation of these datasets and pre-trained model training regimes is often not easily accessible and (2) given the lower friction and higher demand to quickly deploy such systems in real-world contexts, our study reinforces prior work showing performance disparities across datasets, embedding techniques and distance metrics, while highlighting the importance of understanding how data is collected, curated and analyzed in semantic similarity classification.
翻訳日:2023-11-12 19:22:02 公開日:2023-11-03
# 大規模マルチモーダルモデル(ChatGPT)は、パーソンズの問題を視覚的に多様な画像で解決できる

More Robots are Coming: Large Multimodal Models (ChatGPT) can Solve Visually Diverse Images of Parsons Problems ( http://arxiv.org/abs/2311.04926v1 )

ライセンス: Link先を確認
Irene Hou, Owen Man, Sophie Mettille, Sebastian Gutierrez, Kenneth Angelikas, Stephen MacNeil(参考訳) 大規模言語モデルの出現は、コンピューティング教育の変革である。 近年の研究では、これらのモデルが生徒よりも優れた説明を生み出し、クラス平均以上で複数の質問に答え、入門コースで自動テストに合格するコードを生成することが示されている。 これらの能力はインストラクターに、学習目標の変化と学術的完全性違反の可能性に対応するために、コースと評価方法を迅速に適応させるよう促した。 言語モデルの能力に対する保護として視覚問題の統合を提唱する研究者もいるが、新しいマルチモーダル言語モデルには視覚と言語機能があり、視覚問題を解析して解決できる可能性がある。 本稿では,視覚的代入に対する2つの大規模マルチモーダルモデルの性能評価を行い,多様な視覚的表現にまたがるパーソンズ問題に着目した。 その結果、gpt-4vは1つのパーソンズ問題で最小に苦労し、これらの視覚問題の96.7\%を解決した。 逆に、バードは69.2\%の問題を解き、幻覚や拒絶といった一般的な問題に悩まされた。 これらの結果は、単に視覚プログラミングの問題に移行することは、生成的AI時代の学術的完全性の問題へのパナセアではないことを示唆している。

The advent of large language models is reshaping computing education. Recent research has demonstrated that these models can produce better explanations than students, answer multiple-choice questions at or above the class average, and generate code that can pass automated tests in introductory courses. These capabilities have prompted instructors to rapidly adapt their courses and assessment methods to accommodate changes in learning objectives and the potential for academic integrity violations. While some scholars have advocated for the integration of visual problems as a safeguard against the capabilities of language models, new multimodal language models now have vision and language capabilities that may allow them to analyze and solve visual problems. In this paper, we evaluate the performance of two large multimodal models on visual assignments, with a specific focus on Parsons problems presented across diverse visual representations. Our results show that GPT-4V solved 96.7\% of these visual problems, struggling minimally with a single Parsons problem. Conversely, Bard performed poorly by only solving 69.2\% of problems, struggling with common issues like hallucinations and refusals. These findings suggest that merely transitioning to visual programming problems might not be a panacea to issues of academic integrity in the generative AI era.
翻訳日:2023-11-12 19:21:52 公開日:2023-11-03
# 科学文献からoncology effectiveness endpointsの抽出を自動化するためのディープラーニングnlpの検討

Investigating Deep-Learning NLP for Automating the Extraction of Oncology Efficacy Endpoints from Scientific Literature ( http://arxiv.org/abs/2311.04925v1 )

ライセンス: Link先を確認
Aline Gendrin-Brokmann, Eden Harrison, Julianne Noveras, Leonidas Souliotis, Harris Vince, Ines Smit, Francisco Costa, David Milward, Sashka Dimitrievska, Paul Metcalfe, Emilie Louvet(参考訳) 薬物効果のベンチマークは臨床試験の設計と計画において重要なステップである。 課題は、有効性エンドポイントのデータの多くは、科学論文に無料のテキスト形式で格納されているため、現在、これらのデータの抽出は、ほとんど手作業による作業である。 私たちの目標は、このタスクを可能な限り自動化することです。 本研究では,機械学習手法を用いて,論文中のテキストから有効終端を抽出するフレームワークを開発し,最適化した。 機械学習モデルは有効性エンドポイントに関連する25のクラスを予測し、テストセットで96.4%、ケーススタディで93.9%、93.7%という高いf1スコア(ハーモニック平均とリコール)をもたらす。 これらの手法は, 対象物質の専門家と強い一致を示し, フリーテキストから臨床エンドポイントを自動抽出する将来に有意な可能性を示した。 テキストデータからの臨床情報抽出は、現在手作業による作業であり、スケールが悪く、ヒューマンエラーを起こしやすい。 有効性エンドポイントを自動抽出する能力を示すことは、臨床試験設計の前進を加速する大きな可能性を秘めている。

Benchmarking drug efficacy is a critical step in clinical trial design and planning. The challenge is that much of the data on efficacy endpoints is stored in scientific papers in free text form, so extraction of such data is currently a largely manual task. Our objective is to automate this task as much as possible. In this study we have developed and optimised a framework to extract efficacy endpoints from text in scientific papers, using a machine learning approach. Our machine learning model predicts 25 classes associated with efficacy endpoints and leads to high F1 scores (harmonic mean of precision and recall) of 96.4% on the test set, and 93.9% and 93.7% on two case studies. These methods were evaluated against - and showed strong agreement with - subject matter experts and show significant promise in the future of automating the extraction of clinical endpoints from free text. Clinical information extraction from text data is currently a laborious manual task which scales poorly and is prone to human error. Demonstrating the ability to extract efficacy endpoints automatically shows great promise for accelerating clinical trial design moving forwards.
翻訳日:2023-11-12 19:21:27 公開日:2023-11-03
# 基礎モデルによるチューニングレスオブジェクトネーミング

Tuning-less Object Naming with a Foundation Model ( http://arxiv.org/abs/2311.04924v1 )

ライセンス: Link先を確認
Andrej Lucny, Pavel Petrovic(参考訳) 我々は、一度も見つからない名前付きエンティティの集合を学習できるリアルタイムオブジェクト命名システムを実装した。 このアプローチでは、開始前に何かを見る準備ができていると考える既存の基盤モデルを採用しています。 画像は比較的小さな特徴ベクトルに変換され、モデルを微調整する訓練をせずにインデックスを徐々に構築された語彙に関連付ける。 私たちの貢献は、トランスフォーマーから知られている関連メカニズムを注目することです。 実体を区別するための無関係な情報からの一般化をサポートし、語彙のインデックス以上のものと関連付けることができる。 結果として、システムはワンショットで動作でき、異なる内容のオブジェクトを正しく命名することができる。 また,ブラックボードアーキテクチャに統合されたシステムモジュールの実装詳細についても概説する。 最後に、システムの品質、主にこの方法で処理できるオブジェクトの数を調査する。

We implement a real-time object naming system that enables learning a set of named entities never seen. Our approach employs an existing foundation model that we consider ready to see anything before starting. It turns seen images into relatively small feature vectors that we associate with index to a gradually built vocabulary without any training of fine-tuning of the model. Our contribution is using the association mechanism known from transformers as attention. It has features that support generalization from irrelevant information for distinguishing the entities and potentially enable associating with much more than indices to vocabulary. As a result, the system can work in a one-shot manner and correctly name objects named in different contents. We also outline implementation details of the system modules integrated by a blackboard architecture. Finally, we investigate the system's quality, mainly how many objects it can handle in this way.
翻訳日:2023-11-12 19:21:08 公開日:2023-11-03
# 音声対話の状態を追跡する壁を壊すのに十分か?

Is one brick enough to break the wall of spoken dialogue state tracking? ( http://arxiv.org/abs/2311.04923v1 )

ライセンス: Link先を確認
Lucas Druart (LIA), Valentin Vielzeuf, Yannick Est\`eve (LIA)(参考訳) Task-Oriented Dialogue (TOD)システムでは、システムのユーザニーズに対する理解(例えば対話状態追跡)を正しく更新することがスムーズな対話の鍵となる。 伝統的に、TODシステムは、ユーザの発話の書き起こし、キーコンセプトのセマンティック抽出、以前に特定された概念によるコンテキスト化という3つのステップでこの更新を実行する。 このようなカスケードアプローチは、カスケードエラーと別々の最適化に苦しむ。 エンド・ツー・エンドのアプローチは意味抽出の段階まで有効であることが証明されている。 本稿では,(1)アートカスケードアプローチ,(2)ルールに基づく文脈化による局所的E2Eアプローチ,(3)完全にニューラルアプローチの3つのアプローチを比較して,完全な音声対話状態追跡への道筋を一歩進める。 本研究は,最近のDSTC11ベストモデル,特にフィルタリング後処理ステップよりも優れているが,(1)最も正確なアプローチであることを示す。 実際、(2)と(3)は、完全に神経的なアプローチにおける文脈の伝播がオープンな課題であることを示す対話として、文脈の伝播に問題を抱えている。

In Task-Oriented Dialogue (TOD) systems, correctly updating the system's understanding of the user's needs (a.k.a dialogue state tracking) is key to a smooth interaction. Traditionally, TOD systems perform this update in three steps: transcription of the user's utterance, semantic extraction of the key concepts, and contextualization with the previously identified concepts. Such cascade approaches suffer from cascading errors and separate optimization. End-to-End approaches have been proved helpful up to the semantic extraction step. This paper goes one step further paving the path towards completely neural spoken dialogue state tracking by comparing three approaches: (1) a state of the art cascade approach, (2) a locally E2E approach with rule-based contextualization and (3) a completely neural approach. Our study highlights that although they all outperform the recent DSTC11 best model, especially with a filtering post-processing step, (1) remains the most accurate approach. Indeed, both (2) and (3) have trouble propagating context as dialogues unfold showing that context propagation in completely neural approaches is an open challenge.
翻訳日:2023-11-12 19:20:56 公開日:2023-11-03
# 音声対話における逐次対話状態追跡モデルは順番に話すか?

Are cascade dialogue state tracking models speaking out of turn in spoken dialogues? ( http://arxiv.org/abs/2311.04922v1 )

ライセンス: Link先を確認
Lucas Druart (LIA), L\'eo Jacqmin (LIS), Beno\^it Favre (LIS), Lina Maria Rojas-Barahona, Valentin Vielzeuf(参考訳) タスク指向対話(TOD)システムでは、システムのユーザニーズに対する理解を正しく更新することが、スムーズな対話の鍵となる。 伝統的にTODシステムは相互に相互作用する複数のモジュールで構成されている。 それぞれの構成要素は活発な研究コミュニティの焦点であるが、相互作用の振る舞いは見落とされ得る。 本稿では,対話状況に大きく依存する対話状態追跡など,複雑な環境下での美術システムの状態の誤りを包括的に解析する。 本研究では,音声対話システムとチャットベースの対話システムとのギャップを埋めるために,非カテゴリのスロット値の誤りが対処に不可欠であることを示す。 我々は、転写を改善するための潜在的な解決策を探り、対話状態追跡生成モデルの修正を支援する。

In Task-Oriented Dialogue (TOD) systems, correctly updating the system's understanding of the user's needs is key to a smooth interaction. Traditionally TOD systems are composed of several modules that interact with one another. While each of these components is the focus of active research communities, their behavior in interaction can be overlooked. This paper proposes a comprehensive analysis of the errors of state of the art systems in complex settings such as Dialogue State Tracking which highly depends on the dialogue context. Based on spoken MultiWoz, we identify that errors on non-categorical slots' values are essential to address in order to bridge the gap between spoken and chat-based dialogue systems. We explore potential solutions to improve transcriptions and help dialogue state tracking generative models correct such errors.
翻訳日:2023-11-12 19:20:35 公開日:2023-11-03
# 効率的なマルチサブジェクト制御テキスト生成のための後継機能

Successor Features for Efficient Multisubject Controlled Text Generation ( http://arxiv.org/abs/2311.04921v1 )

ライセンス: Link先を確認
Meng Cao, Mehdi Fatemi, Jackie Chi Kit Cheung, Samira Shabanian(参考訳) 大規模言語モデル (llm) は、フルーエントで現実的なテキストを生成することで素晴らしい性能を達成しているが、生成したテキストを制御することで、安全性、事実性、非毒性などの特性を示すことは依然として困難である。 DExperts、GeDi、Crerectificationなどの% 既存のデコードベースのメソッドは制御の次元で静的である。 さらに、複数の主題を同時に制御することが急速に禁止される。 本研究では,LLMのダイナミクスをタスク固有の報酬から切り離すための後継機能(SF)と,完了したテキストが望ましくない可能性に基づいてトークンを選択する確率を比例的に調整する言語モデル修正という,2つの主要な概念を基礎とするSF-GENを紹介する。 SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。 後継機能によって引き起こされるデカップリング効果により,本手法は,特に複数の対象対象物を扱う場合,トレーニングや復号化において,メモリワイドかつ計算的に効率的であることが証明された。 我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。 その計算効率に加えて,本手法が生成する結果言語は,様々な制御可能なテキスト生成タスクにおける一連の実験を通じて実証した,制御尺度と言語品質の両方において,soma (and thanforms bases) に匹敵する。

While large language models (LLMs) have achieved impressive performance in generating fluent and realistic text, controlling the generated text so that it exhibits properties such as safety, factuality, and non-toxicity remains challenging. % such as DExperts, GeDi, and rectification Existing decoding-based methods are static in terms of the dimension of control; if the target subject is changed, they require new training. Moreover, it can quickly become prohibitive to concurrently control multiple subjects. In this work, we introduce SF-GEN, which is grounded in two primary concepts: successor features (SFs) to decouple the LLM's dynamics from task-specific rewards, and language model rectification to proportionally adjust the probability of selecting a token based on the likelihood that the finished text becomes undesired. SF-GEN seamlessly integrates the two to enable dynamic steering of text generation with no need to alter the LLM's parameters. Thanks to the decoupling effect induced by successor features, our method proves to be memory-wise and computationally efficient for training as well as decoding, especially when dealing with multiple target subjects. To the best of our knowledge, our research represents the first application of successor features in text generation. In addition to its computational efficiency, the resultant language produced by our method is comparable to the SOTA (and outperforms baselines) in both control measures as well as language quality, which we demonstrate through a series of experiments in various controllable text generation tasks.
翻訳日:2023-11-12 19:20:21 公開日:2023-11-03
# 積雪等価予測のための注意モデル

Attention-based Models for Snow-Water Equivalent Prediction ( http://arxiv.org/abs/2311.03388v1 )

ライセンス: Link先を確認
Krishu K. Thapa, Bhupinderjeet Singh, Supriya Savalkar, Alan Fern, Kirti Rajagopalan, Ananth Kalyanaraman(参考訳) スノーウォーター等価(SWE、Snow Water-Equivalent)は、水管理機関が灌水、洪水制御、発電、干ばつ管理決定に使用する重要な決定変数である。 SWEの値は時空間的に変化し、天候、地形、その他の環境要因に影響される。 スノーテレメトリ(SNOTEL)で測定できるが、時空間的に完全なデータを生成するには補間技術を必要とする。 近年、SWE予測のための機械学習(ML)の研究が行われているが、近年のMLの進歩は検討されていない。 本研究の主な貢献は,SWE予測のためのMLの進歩,注意機構を探索することである。 我々の仮説では、注意は位置や時間スペクトル(または両方)にまたがる相関を捉え、活用するユニークな能力を持っている。 本稿では,空間的注意と時間的注意を捉えるために,swe予測のための一般的な注意に基づくモデリングフレームワークを提案する。 米国西部の323のSNOTEL局における実験結果から、我々の注意に基づくモデルは、他の機械学習手法よりも優れていることが示された。 また、この文脈における空間的注意と時間的注意の相違を強調し、空間的に完備なSWEマップを生成するためのデプロイメントへのロードマップを示す。

Snow Water-Equivalent (SWE) -- the amount of water available if snowpack is melted -- is a key decision variable used by water management agencies to make irrigation, flood control, power generation and drought management decisions. SWE values vary spatiotemporally -- affected by weather, topography and other environmental factors. While daily SWE can be measured by Snow Telemetry (SNOTEL) stations with requisite instrumentation, such stations are spatially sparse requiring interpolation techniques to create spatiotemporally complete data. While recent efforts have explored machine learning (ML) for SWE prediction, a number of recent ML advances have yet to be considered. The main contribution of this paper is to explore one such ML advance, attention mechanisms, for SWE prediction. Our hypothesis is that attention has a unique ability to capture and exploit correlations that may exist across locations or the temporal spectrum (or both). We present a generic attention-based modeling framework for SWE prediction and adapt it to capture spatial attention and temporal attention. Our experimental results on 323 SNOTEL stations in the Western U.S. demonstrate that our attention-based models outperform other machine learning approaches. We also provide key results highlighting the differences between spatial and temporal attention in this context and a roadmap toward deployment for generating spatially-complete SWE maps.
翻訳日:2023-11-08 18:44:01 公開日:2023-11-03
# 畳み込みニューラルネットワークを用いた広角光散乱画像データからの液滴径の決定

Determination of droplet size from wide-angle light scattering image data using convolutional neural networks ( http://arxiv.org/abs/2311.03387v1 )

ライセンス: Link先を確認
Tom Kirstein, Simon A{\ss}mann, Orkun Furat, Stefan Will and Volker Schmidt(参考訳) 広角光散乱(wals)は, ナノ粒子合成のための噴霧法において, 液滴の時間的, 空間的に高分解能な測定が可能となる。 これらの液滴の大きさはヘテロアグリゲートなどの合成材料の最終性質に影響を与える臨界変数である。 しかし、従来のWALS画像データから液滴サイズを決定する方法は労働集約的であり、特にスプレー火炎合成(SFS)のような複雑なシステムに適用した場合にバイアスが発生する可能性がある。 これらの課題に対処するために,我々は,畳み込みニューラルネットワーク(CNN)を用いた完全自動機械学習ベースのアプローチを導入する。 このCNNベースの手法は、手動ラベルをほとんど必要とせず、転送学習を利用することができ、特に効率性に関して従来の方法に代わる有望な代替手段となる。 機械学習モデルの性能を評価するために, エタノール噴霧火炎プロセスからのwalsデータをバーナー面(habs)のさまざまな高さで解析し, 約35,000のwals画像からなる大規模データセット上で相互評価を行った。

Wide-angle light scattering (WALS) offers the possibility of a highly temporally and spatially resolved measurement of droplets in spray-based methods for nanoparticle synthesis. The size of these droplets is a critical variable affecting the final properties of synthesized materials such as hetero-aggregates. However, conventional methods for determining droplet sizes from WALS image data are labor-intensive and may introduce biases, particularly when applied to complex systems like spray flame synthesis (SFS). To address these challenges, we introduce a fully automatic machine learning-based approach that employs convolutional neural networks (CNNs) in order to streamline the droplet sizing process. This CNN-based methodology offers further advantages: it requires few manual labels and can utilize transfer learning, making it a promising alternative to conventional methods, specifically with respect to efficiency. To evaluate the performance of our machine learning models, we consider WALS data from an ethanol spray flame process at various heights above the burner surface (HABs), where the models are trained and cross-validated on a large dataset comprising nearly 35000 WALS images.
翻訳日:2023-11-08 18:43:37 公開日:2023-11-03
# 画像データ帰属のための簡易かつ効率的なベースライン

A Simple and Efficient Baseline for Data Attribution on Images ( http://arxiv.org/abs/2311.03386v1 )

ライセンス: Link先を確認
Vasu Singla, Pedro Sandoval-Segura, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) データ帰属メソッドは、機械学習モデルを理解する上で重要な役割を担い、デプロイメント中にどのトレーニングデータポイントがモデルアウトプットに最も責任を持つのかについての洞察を提供する。 しかし、現在の最先端のアプローチでは、モデル予測を正確に評価するために最大30万のモデルの大規模なアンサンブルが必要となる。 したがって、これらのアプローチは計算コストが高く、メモリ集約性が高く、大規模モデルやデータセットへのスケールアップが困難である。 本研究では,自己教師付き学習によって事前学習されたバックボーンの機能空間を利用して,データ帰属を行うミニマリストベースラインに注目した。 提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。 CIFAR-10 と ImageNet では,計算コストやメモリコストのごく一部で最先端の手法に匹敵する,あるいは性能が向上することを示す。 先行研究とは対照的に,1つの画像に対するモデルの予測は,視覚的に類似したトレーニングサンプルによって最も影響を受けるという直観を補強する。 我々のアプローチは、画像へのデータ属性の単純で効率的なベースラインとして機能する。

Data attribution methods play a crucial role in understanding machine learning models, providing insight into which training data points are most responsible for model outputs during deployment. However, current state-of-the-art approaches require a large ensemble of as many as 300,000 models to accurately attribute model predictions. These approaches therefore come at a high computational cost, are memory intensive, and are hard to scale to large models or datasets. In this work, we focus on a minimalist baseline, utilizing the feature space of a backbone pretrained via self-supervised learning to perform data attribution. Our method is model-agnostic and scales easily to large datasets. We show results on CIFAR-10 and ImageNet, achieving strong performance that rivals or outperforms state-of-the-art approaches at a fraction of the compute or memory cost. Contrary to prior work, our results reinforce the intuition that a model's prediction on one image is most impacted by visually similar training samples. Our approach serves as a simple and efficient baseline for data attribution on images.
翻訳日:2023-11-08 18:43:18 公開日:2023-11-03
# e-coachingのためのインテリジェントストレスアセスメント

Intelligent Stress Assessment for e-Coaching ( http://arxiv.org/abs/2311.03385v1 )

ライセンス: Link先を確認
Kenneth Lai, Svetlana Yanushkevich, and Vlad Shmerko(参考訳) 本稿では,緊急時や災害時におけるe-coachingの概念の適応を,人間の情緒状態を監視するインテリジェントなツールを用いて支援することで検討する。 不安、パニック、回避、ストレスなどの状態は、適切に検出された場合、e-coaching戦術と戦略を用いて緩和することができる。 本研究では,機械学習技術に基づくストレスモニタリング支援ツールに焦点を当てた。 提案手法を用いた実験結果について報告する。

This paper considers the adaptation of the e-coaching concept at times of emergencies and disasters, through aiding the e-coaching with intelligent tools for monitoring humans' affective state. The states such as anxiety, panic, avoidance, and stress, if properly detected, can be mitigated using the e-coaching tactic and strategy. In this work, we focus on a stress monitoring assistant tool developed on machine learning techniques. We provide the results of an experimental study using the proposed method.
翻訳日:2023-11-08 18:42:59 公開日:2023-11-03
# デジタルゲームにおけるシリアスゲーム:アプリケーション、ゲームエンジン、進歩の総合的なレビュー

Serious Games in Digital Gaming: A Comprehensive Review of Applications, Game Engines and Advancements ( http://arxiv.org/abs/2311.03384v1 )

ライセンス: Link先を確認
Alexandros Gazis, Eleftheria Katsiri(参考訳) シリアスゲームは、経験のゲーミフィケーション(例えば、学習と訓練活動)に焦点を当てた応用ゲームとして定義され、エンターテイメントの目的に厳格ではない。 近年,ユーザを同時に教育し,楽しませる能力によって,真剣なゲームの人気が高まっている。 本稿では,様々なタイプのデジタルゲームの概要を概観し,その応用に焦点をあてて,真剣なゲームジャンルを拡大する。 さらに,ゲーム開発業界で最も広く使用されているゲームエンジンを提示し,Unityのゲームマシンの利点を拡張する。 最後に、本研究は、最も人気のある2つの選択(Unreal と Unity エンジン)と、それぞれの利点と欠点を詳細に比較し、今後のデジタルゲーム開発への提案を締めくくる。

Serious games are defined as applied games that focus on the gamification of an experience (e.g., learning and training activities) and are not strictly for entertainment purposes. In recent years, serious games have become increasingly popular due to their ability to simultaneously educate and entertain users. In this review, we provide a comprehensive overview of the different types of digital games and expand on the serious games genre while focusing on its various applications. Furthermore, we present the most widely used game engines used in the game development industry and extend the Unity game machine advantages. Lastly, we conclude our research with a detailed comparison of the two most popular choices (Unreal and Unity engines) and their respective advantages and disadvantages while providing future suggestions for serious digital game development.
翻訳日:2023-11-08 18:42:51 公開日:2023-11-03
# 強化学習に基づくリクチリニアマクロ配置の人間制約下での展開

Toward Reinforcement Learning-based Rectilinear Macro Placement Under Human Constraints ( http://arxiv.org/abs/2311.03383v1 )

ライセンス: Link先を確認
Tuyen P. Le and Hieu T. Nguyen and Seungyeol Baek and Taeyoun Kim and Jungwoo Lee and Seongjung Kim and Hyunjin Kim and Misu Jung and Daehoon Kim and Seokyong Lee and Daewoo Choi(参考訳) マクロ配置はチップ設計において重要なフェーズであり、一般的な直線マクロやレイアウト領域を含むとより複雑になる。 さらに、設計階層や周辺バイアスといった人間のような制約を組み込んだマクロ配置は、デザイナに必要な手作業の量を大幅に削減する可能性がある。 本研究では,googleの回路訓練(g-ct)が提案する手法を活用し,学習に基づくマクロプレーサーを提案する。 実験結果は,ppa(power-performance-area)測定値の達成と,ヒトの介入に匹敵する高品質な配置の獲得におけるフレームワークの有効性を示す。 さらに,多様なマクロ形状やレイアウト領域に対応する汎用モデルとしての可能性を示す。

Macro placement is a critical phase in chip design, which becomes more intricate when involving general rectilinear macros and layout areas. Furthermore, macro placement that incorporates human-like constraints, such as design hierarchy and peripheral bias, has the potential to significantly reduce the amount of additional manual labor required from designers. This study proposes a methodology that leverages an approach suggested by Google's Circuit Training (G-CT) to provide a learning-based macro placer that not only supports placing rectilinear cases, but also adheres to crucial human-like design principles. Our experimental results demonstrate the effectiveness of our framework in achieving power-performance-area (PPA) metrics and in obtaining placements of high quality, comparable to those produced with human intervention. Additionally, our methodology shows potential as a generalized model to address diverse macro shapes and layout areas.
翻訳日:2023-11-08 18:42:36 公開日:2023-11-03
# オンラインコンビネート最適化のための政策最適化におけるカリキュラム学習の理解

Understanding Curriculum Learning in Policy Optimization for Online Combinatorial Optimization ( http://arxiv.org/abs/2202.05423v3 )

ライセンス: Link先を確認
Runlong Zhou, Zelin He, Yuandong Tian, Yi Wu, Simon S. Du(参考訳) 近年,強化学習(rl)は,特にカリキュラム学習と組み合わせることで,組合せ最適化(co)問題に対して有望な結果が示され始めている。 実験的な証拠が現れたにもかかわらず、rlがなぜ助けるかについての理論的な研究はまだ初期段階にある。 本稿では,オンラインco問題に対するポリシー最適化手法に関する最初の体系的研究を行う。 オンラインCO問題は, 遅延マルコフ決定過程 (LMDP) として自然に定式化でき, LMDP を解くための自然政策勾配 (NPG) に収束することを示す。 さらに,本理論はカリキュラム学習の利点を解説し,この定理の収束率を決定する重要な量である,強いサンプリングポリシーを見つけ,分布シフトを減少させることができる。 正規オンラインCO問題であるベストチョイス問題(BCP)では,カリキュラムがランダムに生成されたBCPであっても,カリキュラムの学習によって分布シフトが指数関数的に減少することが正式に証明される。 また,本理論は,先行研究で用いられるカリキュラム学習を,多段階から一段階に単純化できることを示す。 最後に、Best Choice Problem、Online Knapsack、AdWordsに関する広範な実験を行い、その結果を確認します。

Over the recent years, reinforcement learning (RL) starts to show promising results in tackling combinatorial optimization (CO) problems, in particular when coupled with curriculum learning to facilitate training. Despite emerging empirical evidence, theoretical study on why RL helps is still at its early stage. This paper presents the first systematic study on policy optimization methods for online CO problems. We show that online CO problems can be naturally formulated as latent Markov Decision Processes (LMDPs), and prove convergence bounds on natural policy gradient (NPG) for solving LMDPs. Furthermore, our theory explains the benefit of curriculum learning: it can find a strong sampling policy and reduce the distribution shift, a critical quantity that governs the convergence rate in our theorem. For a canonical online CO problem, the Best Choice Problem (BCP), we formally prove that distribution shift is reduced exponentially with curriculum learning even if the curriculum is a randomly generated BCP on a smaller scale. Our theory also shows we can simplify the curriculum learning scheme used in prior work from multi-step to single-step. Lastly, we provide extensive experiments on the Best Choice Problem, Online Knapsack, and AdWords to verify our findings.
翻訳日:2023-11-08 02:08:04 公開日:2023-11-03
# クーロン相互作用のスクリーニングは2次元悪い導体における予熱状態につながる

Screening the Coulomb interaction leads to a prethermal regime in two-dimensional bad conductors ( http://arxiv.org/abs/2110.11473v2 )

ライセンス: Link先を確認
L. J. Stanley, Ping V. Lin, J. Jaroszy\'nski, Dragana Popovi\'c(参考訳) ある孤立多体系における熱化の欠如は、非常に基本的な関心事である。 多体局在化(MBL)は、強い乱れを持つ量子系において熱化が失敗する機構として広く研究されているが、相互作用の範囲が、特に次元$D>1$のMBLの存在にどのように影響するかは正確には分かっていない。 パワーロー相互作用を持つ強不規則な$d=2$電子系における非平衡ダイナミクスの研究により、熱浴への疎結合が弱く、mblのような前熱力学が$\alpha=3$で観測される。 対照的に、$\alpha=1$の場合、システムは熱化するが、ダイナミクスはガラス色である。 この結果は、mblの以前の研究で採用した合成量子系よりも熱力学的限界に近い系で得られたため、理論に重要な洞察を与えている。 したがって、我々の研究は、実際の材料におけるエルゴディディティの破れと量子絡み合いのさらなる研究への重要な一歩である。

The absence of thermalization in certain isolated many-body systems is of great fundamental interest. Many-body localization (MBL) is a widely studied mechanism for thermalization to fail in strongly disordered quantum systems, but it is still not understood precisely how the range of interactions affects the dynamical behavior and the existence of MBL, especially in dimensions $D>1$. By investigating nonequilibrium dynamics in strongly disordered $D=2$ electron systems with power-law interactions $\propto 1/r^{\alpha}$ and poor coupling to a thermal bath, here we observe MBL-like, prethermal dynamics for $\alpha=3$. In contrast, for $\alpha=1$, the system thermalizes, although the dynamics is glassy. Our results provide important insights for theory, especially since we obtained them on systems that are much closer to the thermodynamic limit than synthetic quantum systems employed in previous studies of MBL. Thus, our work is a key step towards further studies of ergodicity breaking and quantum entanglement in real materials.
翻訳日:2023-11-08 02:05:51 公開日:2023-11-03
# 複数環境を用いた観測データ中の隠れた境界検出

Detecting hidden confounding in observational data using multiple environments ( http://arxiv.org/abs/2205.13935v4 )

ライセンス: Link先を確認
Rickard K.A. Karlsson, Jesse H. Krijthe(参考訳) 観測データからの因果推論における一般的な仮定は、隠れた共起がないことである。 しかし、一般にこの仮定を単一のデータセットから検証することは不可能である。 データ生成プロセスの基盤となる独立した因果メカニズムの仮定の下で、異なる環境からの複数の観測データセットを持つ際に、観察されていない共同創設者を検出する方法を示す。 本論では, 仮説に反する事例(退化・依存機構, 忠実度違反)を隠蔽した場合にのみ欠落するテスト可能な条件不依存性の理論を提案する。 さらに、実世界のデータセットに基づくシミュレーション研究と半合成データを用いて、これらの非依存性を検証し、その経験的有限サンプル挙動を研究する手順を提案する。 ほとんどの場合、提案手法は隠れた共起の存在を正しく予測し、特に共起バイアスが大きい場合にはその存在を正しく予測する。

A common assumption in causal inference from observational data is that there is no hidden confounding. Yet it is, in general, impossible to verify this assumption from a single dataset. Under the assumption of independent causal mechanisms underlying the data-generating process, we demonstrate a way to detect unobserved confounders when having multiple observational datasets coming from different environments. We present a theory for testable conditional independencies that are only absent when there is hidden confounding and examine cases where we violate its assumptions: degenerate & dependent mechanisms, and faithfulness violations. Additionally, we propose a procedure to test these independencies and study its empirical finite-sample behavior using simulation studies and semi-synthetic data based on a real-world dataset. In most cases, the proposed procedure correctly predicts the presence of hidden confounding, particularly when the confounding bias is large.
翻訳日:2023-11-08 01:53:39 公開日:2023-11-03
# 対称行列分解を再考する: より一般的でより良いクラスタリングの視点

Rethinking Symmetric Matrix Factorization: A More General and Better Clustering Perspective ( http://arxiv.org/abs/2209.02528v3 )

ライセンス: Link先を確認
Mengyuan Zhang and Kai Liu(参考訳) 非負行列分解(NMF)は強い解釈性を持つクラスタリングに広く用いられている。 一般的なNMF問題の中で、対称NMFは、各要素がデータポイント間の類似度を測定するグラフクラスタリングにおいて重要な役割を果たす特別な問題である。 既存の対称NMFアルゴリズムの多くは係数行列が非負であることを必要とし、類似性行列とクラスタリングの近似とのギャップを最小化することにのみ焦点をあてる。 本稿では,非負性を必要としない対称行列の分解について検討し,クラスタリング性能を高めるために正規化項を持つ効率的な分解アルゴリズムを提案する。 さらに, 因子行列に対する制約が異なる対称行列分解問題を解くために, より一般的な枠組みが提案されている。

Nonnegative matrix factorization (NMF) is widely used for clustering with strong interpretability. Among general NMF problems, symmetric NMF is a special one that plays an important role in graph clustering where each element measures the similarity between data points. Most existing symmetric NMF algorithms require factor matrices to be nonnegative, and only focus on minimizing the gap between similarity matrix and its approximation for clustering, without giving a consideration to other potential regularization terms which can yield better clustering. In this paper, we explore factorizing a symmetric matrix that does not have to be nonnegative, presenting an efficient factorization algorithm with a regularization term to boost the clustering performance. Moreover, a more general framework is proposed to solve symmetric matrix factorization problems with different constraints on the factor matrices.
翻訳日:2023-11-08 01:42:21 公開日:2023-11-03
# 20量子ビット量子シミュレータの複素状態再構成

Reconstructing complex states of a 20-qubit quantum simulator ( http://arxiv.org/abs/2208.04862v4 )

ライセンス: Link先を確認
Murali K. Kurmapu, V.V. Tiunova, E.S. Tiunov, Martin Ringbauer, Christine Maier, Rainer Blatt, Thomas Monz, Aleksey K. Fedorov, A.I. Lvovsky(参考訳) 量子コンピュータとシミュレーターの開発に成功するための前提条件は、それらが生成する量子状態を測定することによって得られる物理的過程の正確な理解である。 しかしながら、従来の量子状態推定に必要なリソースは、システムサイズと指数関数的にスケールし、代替アプローチの必要性を強調している。 ここでは、大きく絡み合った多ビット量子状態の効率的な再構成法を示す。 行列積状態 ansatz の変分バージョンを用いて、20量子ビットのトラップイオンイジング型量子シミュレータで生成された量子状態のトモグラフィー(純状態近似)を行い、各基底で1000個の測定値を持つ27塩基で取得したデータを用いた。 我々は、ニューラルネットワークの量子状態表現に基づく手法と比較して、優れた状態再構成品質とより高速な収束を観察する:制限ボルツマンマシンと自己回帰アーキテクチャを備えたフィードフォワードニューラルネットワーク。 本研究では,多体量子系のクエンチダイナミクスによって生成される複素状態の効率的な実験的キャラクタリゼーションへの道を開く。

A prerequisite to the successful development of quantum computers and simulators is precise understanding of physical processes occurring therein, which can be achieved by measuring the quantum states they produce. However, the resources required for traditional quantum-state estimation scale exponentially with the system size, highlighting the need for alternative approaches. Here we demonstrate an efficient method for reconstruction of significantly entangled multi-qubit quantum states. Using a variational version of the matrix product state ansatz, we perform the tomography (in the pure-state approximation) of quantum states produced in a 20-qubit trapped-ion Ising-type quantum simulator, using the data acquired in only 27 bases with 1000 measurements in each basis. We observe superior state reconstruction quality and faster convergence compared to the methods based on neural network quantum state representations: restricted Boltzmann machines and feedforward neural networks with autoregressive architecture. Our results pave the way towards efficient experimental characterization of complex states produced by the quench dynamics of many-body quantum systems.
翻訳日:2023-11-08 01:41:11 公開日:2023-11-03
# ディジタル量子コンピュータにおける量子多体ジャルジンスキー等価性と散逸雑音

Quantum many-body Jarzynski equality and dissipative noise on a digital quantum computer ( http://arxiv.org/abs/2207.14313v2 )

ライセンス: Link先を確認
Dominik Hahn, Maxime Dupont, Markus Schmitt, David J. Luitz, and Marin Bukov(参考訳) 量子ジャジンスキーの等式とクルックスの関係は、平衡過程と非平衡変動を結びつける基本法則である。 彼らは量子デバイスをベンチマークし、自由エネルギー差を測定するツールを約束している。 理論上は十分に確立されており、数体系の実験的な実現もすでに存在するが、量子多体状態における実験的な妥当性は今のところ観測されていない。 本稿では、閉じ込められたイオンと超伝導量子コンピュータで得られる最大16個の相互作用する自由度を持つ系における非平衡プロトコルについて、量子ジャージンスキー等式と多体系におけるクルックス関係をテストした結果を示す。 そこで本研究では, 雑音中規模量子デバイスにおける熱アンサンブルの作成と作業分布の測定における現在の限界を克服する。 jarzynski等式がプラットフォーム固有のエラーの対象となる異なる量子コンピューティングプラットフォームに対して持つ正確性について論じる。 この分析は、高速なユニタリドライブによって補償されるエネルギー散逸の政権におけるジャージンスキーの平等の妥当性を明らかにする。 これは多体量子シミュレータでエラーを分析するための新しい洞察を提供する。

The quantum Jarzynski equality and the Crooks relation are fundamental laws connecting equilibrium processes with nonequilibrium fluctuations. They are promising tools to benchmark quantum devices and measure free energy differences. While they are well established theoretically and also experimental realizations for few-body systems already exist, their experimental validity in the quantum many-body regime has not been observed so far. Here, we present results for nonequilibrium protocols in systems with up to sixteen interacting degrees of freedom obtained on trapped ion and superconducting qubit quantum computers, which test the quantum Jarzynski equality and the Crooks relation in the many-body regime. To achieve this, we overcome present-day limitations in the preparation of thermal ensembles and in the measurement of work distributions on noisy intermediate-scale quantum devices. We discuss the accuracy to which the Jarzynski equality holds on different quantum computing platforms subject to platform-specific errors. The analysis reveals the validity of Jarzynski's equality in a regime with energy dissipation, compensated for by a fast unitary drive. This provides new insights for analyzing errors in many-body quantum simulators.
翻訳日:2023-11-08 01:40:32 公開日:2023-11-03
# 仮説閉時間型曲線の量子シミュレーションにより確立された距離論における非古典的優位性

Nonclassical advantage in metrology established via quantum simulations of hypothetical closed timelike curves ( http://arxiv.org/abs/2207.07666v2 )

ライセンス: Link先を確認
David R. M. Arvidsson-Shukur, Aidan G. McConnell, Nicole Yunger Halpern(参考訳) 我々は,時間軸を逆向きに移動する世界線である閉じた時間曲線をシミュレートすることで,気象学者が入力状態を修正できるメトロジー実験を構築した。 閉時間的曲線の存在は仮定的である。 それでも、それらは量子テレポーテーション回路によって確率的にシミュレートすることができる。 このようなシミュレーションを利用して、絡み合うことができる直観的非古典的優位性をピンポイントする。 計算機学者は未知の量子相互作用に入力するためにプローブを準備しなければならない。 目標は、プローブ毎の情報を可能な限り推測することである。 入力が最適であれば、プローブごとに得られる情報は、古典的に達成可能な任意の値を超えることができる。 問題は、相互作用の後のみ、メトロロジストはどの入力が最適であったかを学習するということだ。 メトロロジストは、エンタングルメント操作を通じて、最適な入力をタイムバックで効果的にテレポートすることで、入力を変えようとすることができる。 効果的なタイムトラベルは時折失敗するが、試行錯誤によって、気象学者の勝利が正であることを保証する。 以上より,古典的年代観学理論では,絡み合いが操作上の利点を生み出す可能性が示唆された。

We construct a metrology experiment in which the metrologist can sometimes amend her input state by simulating a closed timelike curve, a worldline that travels backward in time. The existence of closed timelike curves is hypothetical. Nevertheless, they can be simulated probabilistically by quantum-teleportation circuits. We leverage such simulations to pinpoint a counterintuitive nonclassical advantage achievable with entanglement. Our experiment echoes a common information-processing task: A metrologist must prepare probes to input into an unknown quantum interaction. The goal is to infer as much information per probe as possible. If the input is optimal, the information gained per probe can exceed any value achievable classically. The problem is that, only after the interaction does the metrologist learn which input would have been optimal. The metrologist can attempt to change her input by effectively teleporting the optimal input back in time, via entanglement manipulation. The effective time travel sometimes fails but ensures that, summed over trials, the metrologist's winnings are positive. Our Gedankenexperiment demonstrates that entanglement can generate operational advantages forbidden in classical chronology-respecting theories.
翻訳日:2023-11-08 01:40:12 公開日:2023-11-03
# 超伝導量子ビットにおける測定誘起状態遷移:回転波近似内

Measurement-Induced State Transitions in a Superconducting Qubit: Within the Rotating Wave Approximation ( http://arxiv.org/abs/2212.05097v2 )

ライセンス: Link先を確認
Mostafa Khezri, Alex Opremcak, Zijun Chen, Kevin C. Miao, Matt McEwen, Andreas Bengtsson, Theodore White, Ofer Naaman, Daniel Sank, Alexander N. Korotkov, Yu Chen, Vadim Smelyanskiy(参考訳) 超伝導量子ビットは通常、共振器が量子ビットに結合され、周波数が量子ビット状態に依存する分散読み出しスキームを用いる。 共振器を駆動して測定を行い、送信された共振器フィールドが共振器周波数および量子ビット状態に関する情報を得る。 理想的には、任意に強い共振器駆動を用いて、最短時間で目標信号と雑音の比を達成できる。 しかし、実験により、平均共振器光子数が一定のしきい値を超えると、量子ビットは、測定誘起状態遷移(mist)と呼ばれる過程において計算された部分空間から励起されることが示されている。 これらの遷移は読み出しフィリティを低下させ、例えば誤り訂正においてキュービットのさらなる操作を妨げるリークを構成する。 本稿では, 共振器周波数がキュービット周波数よりも低い状態において, 平均共振器光子数, 平均共振器光子数, および量子ビット状態への依存性を測定することにより, トランペット量子ビットによるこれらの遷移を実験的に検討する。 繰り返し測定された場合, 雑音挙動を示す結合量子共振器システムにおいて, レベル間の共振遷移のシグネチャを観測する。 我々は、回転波近似に基づいて、これらの遷移の半古典モデルを提供し、それを用いて、実験における状態遷移の開始を予測する。 以上の結果から, トランスモンは状態遷移後のコサイン電位の頂点付近のレベルに励起され, より高いトランスモン準位の電荷分散が観測された状態遷移のノイズ挙動を説明することが示唆された。 さらに,これらの高エネルギーレベルの占有は,高速な量子ビットリセットにとって大きな課題であることを示す。

Superconducting qubits typically use a dispersive readout scheme, where a resonator is coupled to a qubit such that its frequency is qubit-state dependent. Measurement is performed by driving the resonator, where the transmitted resonator field yields information about the resonator frequency and thus the qubit state. Ideally, we could use arbitrarily strong resonator drives to achieve a target signal-to-noise ratio in the shortest possible time. However, experiments have shown that when the average resonator photon number exceeds a certain threshold, the qubit is excited out of its computational subspace in a process we refer to as a measurement-induced state transition (MIST). These transitions degrade readout fidelity, and constitute leakage which precludes further operation of the qubit in, for example, error correction. Here we study these transitions experimentally with a transmon qubit by measuring their dependence on qubit frequency, average resonator photon number, and qubit state, in the regime where the resonator frequency is lower than the qubit frequency. We observe signatures of resonant transitions between levels in the coupled qubit-resonator system that exhibit noisy behavior when measured repeatedly in time. We provide a semi-classical model of these transitions based on the rotating wave approximation and use it to predict the onset of state transitions in our experiments. Our results suggest the transmon is excited to levels near the top of its cosine potential following a state transition, where the charge dispersion of higher transmon levels explains the observed noisy behavior of state transitions. Moreover, we show that occupation in these higher energy levels poses a major challenge for fast qubit reset.
翻訳日:2023-11-08 01:31:17 公開日:2023-11-03
# 動物コミュニケーションの理解による教師なし翻訳の理論

A Theory of Unsupervised Translation Motivated by Understanding Animal Communication ( http://arxiv.org/abs/2211.11081v2 )

ライセンス: Link先を確認
Shafi Goldwasser, David F. Gruber, Adam Tauman Kalai, Orr Paradise(参考訳) ニューラルネットワークは言語間の翻訳が可能である - 場合によっては、Unsupervised Machine Translation (UMT)と呼ばれる並列翻訳へのアクセスがほとんどあるいは全くない2つの言語の間でも。 この進歩を考えると、機械学習ツールが最終的に動物のコミュニケーション、特に高度に知的な動物のコミュニケーションを理解することができるかどうかを問うのは興味深い。 並列翻訳ができない場合や、ソースとターゲットコーパスが関連する対象ドメインに対処できない場合や、同様の言語構造を持つ場合において、UTTを解析するための理論的枠組みを提案する。 我々はこの理論を2つのスタイル化された言語モデルで実証し、我々のフレームワークは必要なサンプルの複雑さのバウンドを提供する。 これらの境界は、誤り率が言語の複雑さと共通基盤の量と逆関係であることを示している。 これは、動物コミュニケーションの教師なし翻訳は、通信システムが十分に複雑であれば実現可能であることを示唆している。

Neural networks are capable of translating between languages -- in some cases even between two languages where there is little or no access to parallel translations, in what is known as Unsupervised Machine Translation (UMT). Given this progress, it is intriguing to ask whether machine learning tools can ultimately enable understanding animal communication, particularly that of highly intelligent animals. We propose a theoretical framework for analyzing UMT when no parallel translations are available and when it cannot be assumed that the source and target corpora address related subject domains or posses similar linguistic structure. We exemplify this theory with two stylized models of language, for which our framework provides bounds on necessary sample complexity; the bounds are formally proven and experimentally verified on synthetic data. These bounds show that the error rates are inversely related to the language complexity and amount of common ground. This suggests that unsupervised translation of animal communication may be feasible if the communication system is sufficiently complex.
翻訳日:2023-11-08 01:29:24 公開日:2023-11-03
# 真に非古典的な干渉の現象論の諸側面

Aspects of the phenomenology of interference that are genuinely nonclassical ( http://arxiv.org/abs/2211.09850v2 )

ライセンス: Link先を確認
Lorenzo Catani, Matthew Leifer, Giovanni Scala, David Schmid, and Robert W. Spekkens(参考訳) 干渉現象はしばしば古典的な説明に抵抗するとされる。 しかし、そのような主張は、それらが基づいている現象論の特定の側面が実際には非文脈的存在論的モデル(catani et al., quantum 7, 1119 (2023))で再現できるという事実によって弱められている。 これは、干渉の現象論の他の側面が実際に古典的説明に抵抗するかどうかという疑問を提起する。 我々は、経路識別性とフリンジ可視性との正確なトレードオフを表現する最も基本的な量子波動粒子双対関係が、任意の非文脈モデルでは再現できないことを示すことによって、この疑問に答える。 我々は,不確実性関係の特定のタイプであることを証明し,非文脈性が不確実性関係の機能形式を制限するという最近の結果[catani et al., phys. rev. lett. 129, 240401 (2022)]を活用する。 最後に,波と粒子の双対関係を通じて,どのような干渉実験が文脈性を示すかについて議論する。

Interference phenomena are often claimed to resist classical explanation. However, such claims are undermined by the fact that the specific aspects of the phenomenology upon which they are based can in fact be reproduced in a noncontextual ontological model [Catani et al., Quantum 7, 1119 (2023)]. This raises the question of what other aspects of the phenomenology of interference do in fact resist classical explanation. We answer this question by demonstrating that the most basic quantum wave-particle duality relation, which expresses the precise tradeoff between path distinguishability and fringe visibility, cannot be reproduced in any noncontextual model. We do this by showing that it is a specific type of uncertainty relation and then leveraging a recent result establishing that noncontextuality restricts the functional form of this uncertainty relation [Catani et al., Phys. Rev. Lett. 129, 240401 (2022)]. Finally, we discuss what sorts of interferometric experiment can demonstrate contextuality via the wave-particle duality relation.
翻訳日:2023-11-08 01:28:53 公開日:2023-11-03
# ノード分類にグラフニューラルネットワークはいつ必要か?

When Do We Need Graph Neural Networks for Node Classification? ( http://arxiv.org/abs/2210.16979v2 )

ライセンス: Link先を確認
Sitao Luan, Chenqing Hua, Qincheng Lu, Jiaqi Zhu, Xiao-Wen Chang, Doina Precup(参考訳) グラフニューラルネットワーク(gnns)は基本ニューラルネットワーク(nns)を拡張し、関係帰納バイアス(エッジバイアス)に基づくグラフ構造を、独立かつ同一に分散した(i.i.d.)サンプルのコレクションとして扱うのではなく、利用することで拡張する。 GNNは現実世界のタスクにおいて基本的NNよりも優れていると考えられているが、いくつかのケースでは、GNNのパフォーマンスは向上せず、グラフに依存しないNNも性能が劣っている。 これらの事例を明らかにするために,グラフ信号処理と統計的仮説テストに基づいて,特徴やラベルのエッジバイアスが利点を提供していない場合を分析する2つの尺度を提案する。 測定値に基づいて、グラフ認識モデルよりもグラフ認識モデルの潜在的な性能優位性を予測できるしきい値を与えることができる。

Graph Neural Networks (GNNs) extend basic Neural Networks (NNs) by additionally making use of graph structure based on the relational inductive bias (edge bias), rather than treating the nodes as collections of independent and identically distributed (i.i.d.) samples. Though GNNs are believed to outperform basic NNs in real-world tasks, it is found that in some cases, GNNs have little performance gain or even underperform graph-agnostic NNs. To identify these cases, based on graph signal processing and statistical hypothesis testing, we propose two measures which analyze the cases in which the edge bias in features and labels does not provide advantages. Based on the measures, a threshold value can be given to predict the potential performance advantages of graph-aware models over graph-agnostic models.
翻訳日:2023-11-08 01:28:06 公開日:2023-11-03
# Gappy POD, Extended POD, Generative Adversarial Networks を用いた乱流のマルチスケールデータ再構成

Multi-scale data reconstruction of turbulent rotating flows with Gappy POD, Extended POD and Generative Adversarial Networks ( http://arxiv.org/abs/2210.11921v2 )

ライセンス: Link先を確認
Tianyi Li, Michele Buzzicotti, Luca Biferale, Fabio Bonaccorso, Shiyi Chen and Minping Wan(参考訳) 回転乱流スナップショットのデータ再構成はデータ駆動ツールを用いて行われる。 この問題は、直接および逆エネルギーカスケードの同時効果を考えると、多くの地球物理学的応用や基礎的な側面において重要であり、これは大きなスケールと小さなスケールの両方で非ゲージ統計に繋がる。 データ同化は、使用する情報の品質と量の観点から再構成の性能を評価することにより、乱流内の物理的特徴をランク付けするツールとしても機能する。 加えて、様々な再構築技法のベンチマークは、量的優越性、実装の複雑さ、適用可能性の間のトレードオフを評価するのに不可欠である。 本研究では, 固有直交分解(POD)とGAN(Generative Adversarial Network)に基づく線形・非線形ツールを用いて, 空間的損傷を伴う回転乱流スナップショットの再構成を行う。 統計特性と瞬時速度場の両方を正確に再現することに注力する。 欠落情報の一貫性と多元的特性の重要度を評価するために, 異なるギャップサイズとギャップジオメトリについて検討した。 意外なことに、ポイントワイド再構成に関して、非線形GANは線形POD技術よりも優れていない。 一方、ganアプローチの超越性は、統計的多スケール特性を比較するときに示される。 同様に、gap領域の極端な事象はganを使用する際により予測される。 点次誤差と統計特性のバランスは逆比によって制御され、GAN訓練におけるジェネレータと判別器の相対的重要性を決定する。 測定ノイズに対するロバスト性についても論じる。

Data reconstruction of rotating turbulent snapshots is investigated utilizing data-driven tools. This problem is crucial for numerous geophysical applications and fundamental aspects, given the concurrent effects of direct and inverse energy cascades, which lead to non-Gaussian statistics at both large and small scales. Data assimilation also serves as a tool to rank physical features within turbulence, by evaluating the performance of reconstruction in terms of the quality and quantity of the information used. Additionally, benchmarking various reconstruction techniques is essential to assess the trade-off between quantitative supremacy, implementation complexity, and explicability. In this study, we use linear and non-linear tools based on the Proper Orthogonal Decomposition (POD) and Generative Adversarial Network (GAN) for reconstructing rotating turbulence snapshots with spatial damages (inpainting). We focus on accurately reproducing both statistical properties and instantaneous velocity fields. Different gap sizes and gap geometries are investigated in order to assess the importance of coherency and multi-scale properties of the missing information. Surprisingly enough, concerning point-wise reconstruction, the non-linear GAN does not outperform one of the linear POD techniques. On the other hand, supremacy of the GAN approach is shown when the statistical multi-scale properties are compared. Similarly, extreme events in the gap region are better predicted when using GAN. The balance between point-wise error and statistical properties is controlled by the adversarial ratio, which determines the relative importance of the generator and the discriminator in the GAN training. Robustness against the measurement noise is also discussed.
翻訳日:2023-11-08 01:27:12 公開日:2023-11-03
# 相互作用生成のための二部グラフ拡散モデル

Bipartite Graph Diffusion Model for Human Interaction Generation ( http://arxiv.org/abs/2301.10134v2 )

ライセンス: Link先を確認
Baptiste Chopin, Hao Tang, Mohamed Daoudi(参考訳) 人間の自然な動きの相互作用の生成は、コンピュータビジョンとコンピュータアニメーションのホットトピックである。 人間の動作の相互作用の多様性のため、これは難しい課題である。 拡散モデルは、他の領域ですでに顕著な生成能力を示しており、このタスクのよい候補である。 本稿では,バイパートグラフ拡散法(BiGraphDiff)を提案する。 具体的には、相互作用中の骨格ノード間の固有の幾何学的制約をモデル化するために二成分ノード集合が構成される。 相互作用グラフ拡散モデルは変換器ベースであり、いくつかの最先端の動作法を組み合わせる。 提案手法は,人間のインタラクション生成タスクの先行ベンチマークにおいて,最新の結果が得られることを示す。

The generation of natural human motion interactions is a hot topic in computer vision and computer animation. It is a challenging task due to the diversity of possible human motion interactions. Diffusion models, which have already shown remarkable generative capabilities in other domains, are a good candidate for this task. In this paper, we introduce a novel bipartite graph diffusion method (BiGraphDiff) to generate human motion interactions between two persons. Specifically, bipartite node sets are constructed to model the inherent geometric constraints between skeleton nodes during interactions. The interaction graph diffusion model is transformer-based, combining some state-of-the-art motion methods. We show that the proposed achieves new state-of-the-art results on leading benchmarks for the human interaction generation task.
翻訳日:2023-11-08 01:19:11 公開日:2023-11-03
# 回転乱流における速度成分推定のための生成逆ネットワーク

Generative Adversarial Networks to infer velocity components in rotating turbulent flows ( http://arxiv.org/abs/2301.07541v2 )

ライセンス: Link先を確認
Tianyi Li, Michele Buzzicotti, Luca Biferale and Fabio Bonaccorso(参考訳) 回転乱流の二次元スナップショットに対する推定問題について検討した。 本稿では,線形拡張固有直交分解法 (epod) 法, 非線形畳み込みニューラルネットワーク (cnn) および生成逆ネットワーク法 (gan) の, 点的および統計的再構成能力の系統的定量的評価を行う。 2つ目の測定から1つの速度成分を推定する重要なタスクを攻撃し、 (I) 両方の成分が回転軸に直交する平面に配置され、 (II) そのうちの1つは回転軸に平行である2つのケースについて検討した。 EPOD法は両者の相関関係が強い前例にのみ有効であり,CNNとGANはポイントワイドと統計的再構成の両方においてEPOD法よりも優れていた。 例えば(II)、入力と出力データの相関が弱い場合には、すべてのメソッドがポイントワイズ情報を忠実に再構築することができない。 この場合、統計的な意味では、GANのみがフィールドを再構築することができる。 予測と基底真理との空間距離をl_2$とする標準検証ツールとウェーブレット分解を用いたより洗練されたマルチスケール解析の両方を用いて解析を行った。 統計的検証は、確率密度関数、スペクトル特性、多スケール平坦性の間の標準jensen-shannon発散に基づいている。

Inference problems for two-dimensional snapshots of rotating turbulent flows are studied. We perform a systematic quantitative benchmark of point-wise and statistical reconstruction capabilities of the linear Extended Proper Orthogonal Decomposition (EPOD) method, a non-linear Convolutional Neural Network (CNN) and a Generative Adversarial Network (GAN). We attack the important task of inferring one velocity component out of the measurement of a second one, and two cases are studied: (I) both components lay in the plane orthogonal to the rotation axis and (II) one of the two is parallel to the rotation axis. We show that EPOD method works well only for the former case where both components are strongly correlated, while CNN and GAN always outperform EPOD both concerning point-wise and statistical reconstructions. For case (II), when the input and output data are weakly correlated, all methods fail to reconstruct faithfully the point-wise information. In this case, only GAN is able to reconstruct the field in a statistical sense. The analysis is performed using both standard validation tools based on $L_2$ spatial distance between the prediction and the ground truth and more sophisticated multi-scale analysis using wavelet decomposition. Statistical validation is based on standard Jensen-Shannon divergence between the probability density functions, spectral properties and multi-scale flatness.
翻訳日:2023-11-08 01:18:46 公開日:2023-11-03
# CiteBench:Scientific Citation Text Generationのベンチマーク

CiteBench: A benchmark for Scientific Citation Text Generation ( http://arxiv.org/abs/2212.09577v3 )

ライセンス: Link先を確認
Martin Funkquist, Ilia Kuznetsov, Yufang Hou and Iryna Gurevych(参考訳) 科学は、科学出版物に記録された知識の先行体の上に構築することで進歩する。 研究の加速は、最近の発展に最新を保ち、成長を続ける先行作業の体をまとめるのを困難にしている。 これを解決するために、引用テキスト生成のタスクは、引用紙の集合と引用紙のコンテキストとが与えられた正確なテキスト要約を作成することを目的としている。 引用論文における引用文書の明示的なアンカー化により、引用テキスト生成は、人間がいかにして情報源からテキスト知識を集約して合成するかを研究する素晴らしい機会となる。 しかし、既存の研究は広範囲にわたるタスク定義に基づいているため、このタスクを体系的に研究することは困難である。 そこで本研究では,複数の多様なデータセットを統一し,タスク設計とドメイン間での引用テキスト生成モデルの標準化評価を可能にする,引用テキスト生成ベンチマークであるcitebenchを提案する。 新しいベンチマークを用いて、複数の強いベースラインの性能を調査し、データセット間の転送可能性を確認し、タスク定義と評価に関する新たな洞察を提供し、引用テキスト生成における今後の研究を導く。 CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。

Science progresses by building upon the prior body of knowledge documented in scientific publications. The acceleration of research makes it hard to stay up-to-date with the recent developments and to summarize the ever-growing body of prior work. To address this, the task of citation text generation aims to produce accurate textual summaries given a set of papers-to-cite and the citing paper context. Due to otherwise rare explicit anchoring of cited documents in the citing paper, citation text generation provides an excellent opportunity to study how humans aggregate and synthesize textual knowledge from sources. Yet, existing studies are based upon widely diverging task definitions, which makes it hard to study this task systematically. To address this challenge, we propose CiteBench: a benchmark for citation text generation that unifies multiple diverse datasets and enables standardized evaluation of citation text generation models across task designs and domains. Using the new benchmark, we investigate the performance of multiple strong baselines, test their transferability between the datasets, and deliver new insights into the task definition and evaluation to guide future research in citation text generation. We make the code for CiteBench publicly available at https://github.com/UKPLab/citebench.
翻訳日:2023-11-08 01:16:14 公開日:2023-11-03
# バンド・ソーシャル・ラーニング : 神秘的行動による探索

Bandit Social Learning: Exploration under Myopic Behavior ( http://arxiv.org/abs/2302.07425v4 )

ライセンス: Link先を確認
Kiarash Banihashem, MohammadTaghi Hajiaghayi, Suho Shin, Aleksandrs Slivkins(参考訳) オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。 エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索に関係なくミオプティカルに振る舞う。 我々は、腕の期待される報酬に対して、(パラメータ化された)信頼区間と整合した幅広い明視行動を許容する。 私たちはこのような行動に対して、ひどい学習失敗を導き出し、一致するポジティブな結果を与えます。 特殊な場合として,bandits における greedy アルゴリズムの故障に関する最初の一般的な結果を得ることにより,bandit アルゴリズムが探索すべき理由に関する理論的基礎を提供する。

We study social learning dynamics motivated by reviews on online platforms. The agents collectively follow a simple multi-armed bandit protocol, but each agent acts myopically, without regards to exploration. We allow a wide range of myopic behaviors that are consistent with (parameterized) confidence intervals for the arms' expected rewards. We derive stark learning failures for any such behavior, and provide matching positive results. As a special case, we obtain the first general results on failure of the greedy algorithm in bandits, thus providing a theoretical foundation for why bandit algorithms should explore.
翻訳日:2023-11-08 01:04:34 公開日:2023-11-03
# ZRG:マルチモーダルな3次元住宅の屋上理解のためのデータセット

ZRG: A Dataset for Multimodal 3D Residential Rooftop Understanding ( http://arxiv.org/abs/2304.13219v2 )

ライセンス: Link先を確認
Isaac Corley, Jonathan Lwowski, Peyman Najafirad(参考訳) どんな家でも重要な部分は、私たちを要素から守るための屋根です。 本稿では,住宅屋上理解のためのzeitview rooftop geometry(zrg)データセットを提案する。 ZRGは、米国中の屋根検査を通じて収集された20k以上のプロパティからなる大規模な住宅用屋上データセットであり、高解像度の空中オルモザイク、デジタル表面モデル(DSM)、色付きの点雲、および3Dの屋根ワイヤーフレームアノテーションを含む。 本稿では, 屋根のアウトライン抽出, 単分子高さ推定, 平面屋根構造抽出などの実験的ベースラインを詳細に解析し, このデータセットでアンロックされた多数の潜在的な応用例を示す。

A crucial part of any home is the roof over our heads to protect us from the elements. In this paper we present the Zeitview Rooftop Geometry (ZRG) dataset for residential rooftop understanding. ZRG is a large-scale residential rooftop dataset of over 20k properties collected through roof inspections from across the U.S. and contains multiple modalities including high resolution aerial orthomosaics, digital surface models (DSM), colored point clouds, and 3D roof wireframe annotations. We provide an in-depth analysis and perform several experimental baselines including roof outline extraction, monocular height estimation, and planar roof structure extraction, to illustrate a few of the numerous potential applications unlocked by this dataset.
翻訳日:2023-11-07 23:09:17 公開日:2023-11-03
# 有効水平波を用いたブリッジングRL理論と実践

Bridging RL Theory and Practice with the Effective Horizon ( http://arxiv.org/abs/2304.09853v2 )

ライセンス: Link先を確認
Cassidy Laidlaw and Stuart Russell and Anca Dragan(参考訳) 深層強化学習(Deep reinforcement Learning, RL)は、いくつかの環境で顕著に機能し、他の環境で破滅的に失敗する。 理想的には、RL理論はなぜこれが実際のパフォーマンスを予測できる境界であるのかを理解できなければならない。 残念ながら、現在の理論はこの能力を持っていない。 我々は,新しいデータセットBRIDGEを導入することで,標準深度RLアルゴリズムと事前サンプル複雑性境界を比較した。 一般的なRLベンチマークから155個の決定論的MDPとそれに対応する表表現で構成されており、インスタンス依存境界を正確に計算することができる。 確率的環境の多くの興味深い性質を共有できるが、分析しやすく、決定論的環境に焦点を当てる。 BRIDGEを用いて、先行境界は、深いRLが成功するか失敗するかは相関しないが、驚くべき性質を発見する。 ランダムポリシーの下で最も高いQ値を持つ作用が最適ポリシーの下で最も高いQ値を持つ場合(すなわち、ランダムポリシーのQ関数に対して欲求的であることが最適である場合)、深いRLは成功しがちであり、そうでない場合、深いRLは失敗する傾向にある。 我々はこの特性をMDPの新しい複雑性尺度に一般化し、葉ノードをランダムなロールアウトで評価した場合の次の最適な動作を特定するために、MDPにおいてルックアヘッド探索のステップがどれくらい必要かに大まかに対応している。 BRIDGEを用いて,PPOとDQNの実証的な性能は,4つの指標にまたがる事前サンプルの複雑さよりも,有効地平線に基づく境界がより深く反映されていることを示す。 また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。 私たちのコードとデータはhttps://github.com/cassidylaidlaw/ effective-horizonで利用可能です。

Deep reinforcement learning (RL) works impressively in some environments and fails catastrophically in others. Ideally, RL theory should be able to provide an understanding of why this is, i.e. bounds predictive of practical performance. Unfortunately, current theory does not quite have this ability. We compare standard deep RL algorithms to prior sample complexity bounds by introducing a new dataset, BRIDGE. It consists of 155 deterministic MDPs from common deep RL benchmarks, along with their corresponding tabular representations, which enables us to exactly compute instance-dependent bounds. We choose to focus on deterministic environments because they share many interesting properties of stochastic environments, but are easier to analyze. Using BRIDGE, we find that prior bounds do not correlate well with when deep RL succeeds vs. fails, but discover a surprising property that does. When actions with the highest Q-values under the random policy also have the highest Q-values under the optimal policy (i.e. when it is optimal to be greedy on the random policy's Q function), deep RL tends to succeed; when they don't, deep RL tends to fail. We generalize this property into a new complexity measure of an MDP that we call the effective horizon, which roughly corresponds to how many steps of lookahead search would be needed in that MDP in order to identify the next optimal action, when leaf nodes are evaluated with random rollouts. Using BRIDGE, we show that the effective horizon-based bounds are more closely reflective of the empirical performance of PPO and DQN than prior sample complexity bounds across four metrics. We also find that, unlike existing bounds, the effective horizon can predict the effects of using reward shaping or a pre-trained exploration policy. Our code and data are available at https://github.com/cassidylaidlaw/effective-horizon
翻訳日:2023-11-07 23:08:17 公開日:2023-11-03
# Unified Out-Of-Distribution Detection: A Model-Specific Perspective

Unified Out-Of-Distribution Detection: A Model-Specific Perspective ( http://arxiv.org/abs/2304.06813v2 )

ライセンス: Link先を確認
Reza Averly, Wei-Lun Chao(参考訳) out-of-distribution (ood)検出は、トレーニング分布に属さず、確実に予測できないテスト例を特定することを目的としている。 既存の研究の多さにもかかわらず、そのほとんどは、OODの例が意味的シフト(例:見えないカテゴリー)から来るシナリオにのみ焦点を合わせ、他の可能な原因(例:共変量シフト)を無視した。 本稿では,より広い範囲でood検出を研究するための新しい統一フレームワークを提案する。 特定の原因からOODの例を検出する代わりに、デプロイされた機械学習モデル(例えば、画像分類器)が正しく予測できない例を検出することを提案する。 つまり、テスト例を検出して拒否すべきかどうかが ``model-specific'' である。 このフレームワークは,意味的シフトと共変量シフトによって生じるoodサンプルの検出を統一し,非制御環境に機械学習モデルを適用することの懸念に密着している。 我々は、様々なモデル(例えば、異なるアーキテクチャやトレーニング戦略)、OODサンプルのソース、OOD検出アプローチを含む広範な分析を行い、制御されていない環境でのOOD検出の改善と理解に関する洞察を明らかにする。

Out-of-distribution (OOD) detection aims to identify test examples that do not belong to the training distribution and are thus unlikely to be predicted reliably. Despite a plethora of existing works, most of them focused only on the scenario where OOD examples come from semantic shift (e.g., unseen categories), ignoring other possible causes (e.g., covariate shift). In this paper, we present a novel, unifying framework to study OOD detection in a broader scope. Instead of detecting OOD examples from a particular cause, we propose to detect examples that a deployed machine learning model (e.g., an image classifier) is unable to predict correctly. That is, whether a test example should be detected and rejected or not is ``model-specific''. We show that this framework unifies the detection of OOD examples caused by semantic shift and covariate shift, and closely addresses the concern of applying a machine learning model to uncontrolled environments. We provide an extensive analysis that involves a variety of models (e.g., different architectures and training strategies), sources of OOD examples, and OOD detection approaches, and reveal several insights into improving and understanding OOD detection in uncontrolled environments.
翻訳日:2023-11-07 23:06:44 公開日:2023-11-03
# 2成分ボース-アインシュタイン凝縮体におけるペレグリンソリトンの実験的実現

Experimental realization of the Peregrine soliton in repulsive two-component Bose-Einstein condensates ( http://arxiv.org/abs/2304.05951v2 )

ライセンス: Link先を確認
A. Romero-Ros, G. C. Katsimiga, S. I. Mistakidis, S. Mossman, G. Biondini, P. Schmelcher, P. Engels, and P. G. Kevrekidis(参考訳) 粒子不均衡な2成分のボース・アインシュタイン凝縮体(BEC)におけるペレグリンソリトンを不混和状態下で実験的に実現した。 マイノリティ成分の効果的なフォーカスダイナミクスと変調不安定性は、初期ダイナミクスをシードする魅力的なポテンシャル井戸の助けを借りてペレグリンソリトンを動的に生成する機会を与える。 ペレグリンソリトン生成は再現性が高く, 実験により, 少数成分と多数成分を別々に監視し, 井戸の有無, 深さの異なる単一成分のダイナミクスと比較できる。 ここで利用した各成分の集中度を示す。 実験条件を模擬した3次元シミュレーションと,その進化力学をさらに探求する1次元解析により,数値解析と理論的基礎を提供する。

We experimentally realize the Peregrine soliton in a highly particle-imbalanced two-component repulsive Bose-Einstein condensate (BEC) in the immiscible regime. The effective focusing dynamics and resulting modulational instability of the minority component provide the opportunity to dynamically create a Peregrine soliton with the aid of an attractive potential well that seeds the initial dynamics. The Peregrine soliton formation is highly reproducible, and our experiments allow us to separately monitor the minority and majority components, and to compare with the single component dynamics in the absence or presence of the well with varying depths. We showcase the centrality of each of the ingredients leveraged herein. Numerical corroborations and a theoretical basis for our findings are provided through 3D simulations emulating the experimental setting and through a one-dimensional analysis further exploring its evolution dynamics.
翻訳日:2023-11-07 23:05:57 公開日:2023-11-03
# 弱教師付き意味セグメンテーションのためのsegment anything model (sam)拡張擬似ラベル

Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.05803v4 )

ライセンス: Link先を確認
Tianle Chen, Zheda Mai, Ruiwen Li, Wei-lun Chao(参考訳) 弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、画像レベルのアノテーションのみを使用することで、精細なピクセルレベルのアノテーションの必要性を回避することを目的としている。 既存の手法の多くは、ピクセルレベルの擬似ラベルを導出し、完全に教師付きセマンティクスセグメンテーションモデルを訓練するためにクラスアクティベーションマップ(cam)に依存している。 これらの擬似ラベルはクラスアウェアであり、特定のクラスの粗い領域を示すが、オブジェクトアウェアではなく、正確なオブジェクト境界を記述できない。 そこで本研究では,Segment Anything Model(SAM)を用いて,オブジェクト,部品,サブ部品のきめ細かいインスタンスマスクを生成可能な,クラスに依存しない基礎モデルを提案する。 我々は CAM 擬似ラベルを SAM マスクの選択と組み合わせに用い,その結果,クラス認識とオブジェクト認識の両方の高品質な擬似ラベルが得られる。 我々のアプローチは非常に多用途であり、変更することなく既存のWSSSメソッドに簡単に統合できる。 その単純さにもかかわらず、当社の手法はPASCAL VOCとMS-COCOの両方のデータセット上で、最先端のWSSS手法よりも一貫した利得を示している。

Weakly supervised semantic segmentation (WSSS) aims to bypass the need for laborious pixel-level annotation by using only image-level annotation. Most existing methods rely on Class Activation Maps (CAM) to derive pixel-level pseudo-labels and use them to train a fully supervised semantic segmentation model. Although these pseudo-labels are class-aware, indicating the coarse regions for particular classes, they are not object-aware and fail to delineate accurate object boundaries. To address this, we introduce a simple yet effective method harnessing the Segment Anything Model (SAM), a class-agnostic foundation model capable of producing fine-grained instance masks of objects, parts, and subparts. We use CAM pseudo-labels as cues to select and combine SAM masks, resulting in high-quality pseudo-labels that are both class-aware and object-aware. Our approach is highly versatile and can be easily integrated into existing WSSS methods without any modification. Despite its simplicity, our approach shows consistent gain over the state-of-the-art WSSS methods on both PASCAL VOC and MS-COCO datasets.
翻訳日:2023-11-07 22:54:20 公開日:2023-11-03
# 生成的検索を伴うレコメンダシステム

Recommender Systems with Generative Retrieval ( http://arxiv.org/abs/2305.05065v3 )

ライセンス: Link先を確認
Shashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan H. Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Q. Tran, Jonah Samost, Maciej Kula, Ed H. Chi, Maheswaran Sathiamoorthy(参考訳) 現代のレコメンダシステムは、クエリとアイテム候補を同じ統一空間に最初に埋め込むことで大規模な検索を行い、次いで、クエリ埋め込みが与えられた上位候補を選択するために最寄りの探索を行う。 本稿では,検索モデルが自己回帰的に対象候補の識別子を復号化する,新しい生成的検索手法を提案する。 その目的のために、各項目のセマンティックIDとして機能する意味的に意味のあるコードワードのタプルを作成する。 ユーザセッション内のアイテムに対するセマンティックIDが与えられた場合、Transformerベースのシーケンス・ツー・シーケンスモデルを使用して、ユーザが対話する次のアイテムのセマンティックIDを予測する。 我々の知る限りでは、これはレコメンデーションタスクのための最初のセマンティックIDベースの生成モデルである。 提案手法で学習したレコメンダシステムは,既存のsomaモデルに比較して有意な性能を示した。 また,sequence-to-sequenceモデルにsemantic idを組み込むことで,先行的なインタラクション履歴のない項目で観察された検索性能の向上が示すように,その一般化能力が向上することを示す。

Modern recommender systems perform large-scale retrieval by first embedding queries and item candidates in the same unified space, followed by approximate nearest neighbor search to select top candidates given a query embedding. In this paper, we propose a novel generative retrieval approach, where the retrieval model autoregressively decodes the identifiers of the target candidates. To that end, we create semantically meaningful tuple of codewords to serve as a Semantic ID for each item. Given Semantic IDs for items in a user session, a Transformer-based sequence-to-sequence model is trained to predict the Semantic ID of the next item that the user will interact with. To the best of our knowledge, this is the first Semantic ID-based generative model for recommendation tasks. We show that recommender systems trained with the proposed paradigm significantly outperform the current SOTA models on various datasets. In addition, we show that incorporating Semantic IDs into the sequence-to-sequence model enhances its ability to generalize, as evidenced by the improved retrieval performance observed for items with no prior interaction history.
翻訳日:2023-11-07 22:53:57 公開日:2023-11-03
# キャッチミスの詳細:周波数拡張変分オートエンコーダによる画像再構成

Catch Missing Details: Image Reconstruction with Frequency Augmented Variational Autoencoder ( http://arxiv.org/abs/2305.02541v2 )

ライセンス: Link先を確認
Xinmiao Lin, Yikang Li, Jenhao Hsiao, Chiuman Ho, Yu Kong(参考訳) 一般的なVQ-VAEモデルは、離散的なコードブックを学習することで画像再構成を行うが、圧縮率が上昇するにつれて画像再構成の高速な品質劣化に悩まされる。 主な理由は、高い圧縮速度が、ピクセル空間の詳細を反映した高周波数スペクトルの視覚信号の損失を増加させるからである。 本稿では,周波数補完モジュール(FCM)アーキテクチャを提案する。 FCMはVQ-VAE構造に容易に組み込むことができ、新しいモデルをFA-VAE( Frequency Augmented VAE)と呼ぶ。 さらに、動的スペクトル損失(DSL)を導入し、最適再構成のために様々な周波数間で動的にバランスをとるようFCMを誘導する。 FA-VAEはテキスト間の合成タスクにさらに拡張され、テキストのより正確なセマンティック属性を得るために、CAT(Cross-attention Autoregressive Transformer)が提案される。 複数のベンチマークデータセットにおいて圧縮率の異なる広範囲な再構成実験を行い,提案手法がsoma法と比較してより忠実に詳細を復元できることを実証した。 CATはまた、画像テキストのセマンティックアライメントを改善することで、生成品質を改善している。

The popular VQ-VAE models reconstruct images through learning a discrete codebook but suffer from a significant issue in the rapid quality degradation of image reconstruction as the compression rate rises. One major reason is that a higher compression rate induces more loss of visual signals on the higher frequency spectrum which reflect the details on pixel space. In this paper, a Frequency Complement Module (FCM) architecture is proposed to capture the missing frequency information for enhancing reconstruction quality. The FCM can be easily incorporated into the VQ-VAE structure, and we refer to the new model as Frequency Augmented VAE (FA-VAE). In addition, a Dynamic Spectrum Loss (DSL) is introduced to guide the FCMs to balance between various frequencies dynamically for optimal reconstruction. FA-VAE is further extended to the text-to-image synthesis task, and a Cross-attention Autoregressive Transformer (CAT) is proposed to obtain more precise semantic attributes in texts. Extensive reconstruction experiments with different compression rates are conducted on several benchmark datasets, and the results demonstrate that the proposed FA-VAE is able to restore more faithfully the details compared to SOTA methods. CAT also shows improved generation quality with better image-text semantic alignment.
翻訳日:2023-11-07 22:52:24 公開日:2023-11-03
# vipでフレーム・バイ・フレームを考える:ビデオ・チェーン・オブ・マインド評価のためのビデオインフィルメントと予測データセット

Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought ( http://arxiv.org/abs/2305.13903v2 )

ライセンス: Link先を確認
Vaishnavi Himakunthala, Andy Ouyang, Daniel Rose, Ryan He, Alex Mei, Yujie Lu, Chinmay Sonar, Michael Saxon, William Yang Wang(参考訳) 視覚言語システムの自然言語による画像の推論能力は,近年のエキサイティングな結果が得られているが,ビデオ推論の能力は未検討のままである。 我々は,少数のキーフレームの逐次的理解としてフレーミングビデオ推論の動機付けを行い,映像処理の計算複雑性を緩和しつつ,視覚言語のパワーと頑健性を活用する。 この新たな応用を評価するために,ビデオチェーン・オブ・シントによるモデル推論能力の探索を目的とした推論時課題データセットであるVIPを導入する。 視覚的な説明的なシーンプレイに触発されて,キーフレーム記述の2つの形式を提案する。非構造化の密集したキャプションと,キーフレームのフォーカス,アクション,ムード,オブジェクト,設定(有名)を識別する構造化シーン記述である。 ビデオ・インフィルディングとビデオ予測という,複数の中間キーフレームを生成し,将来のキーフレームを予測する能力をテストする2つのタスクを提案する。 我々は,vip上でgpt-4,gpt-3,vicunaをベンチマークし,これらの複雑なビデオ推論タスクにおける性能ギャップを実証し,効率的かつ汎用的なビデオ推論のために言語モデルを優先する今後の作業を促す。

Despite exciting recent results showing vision-language systems' capacity to reason about images using natural language, their capacity for video reasoning remains under-explored. We motivate framing video reasoning as the sequential understanding of a small number of keyframes, thereby leveraging the power and robustness of vision-language while alleviating the computational complexities of processing videos. To evaluate this novel application, we introduce VIP, an inference-time challenge dataset designed to explore models' reasoning capabilities through video chain-of-thought. Inspired by visually descriptive scene plays, we propose two formats for keyframe description: unstructured dense captions and structured scene descriptions that identify the focus, action, mood, objects, and setting (FAMOuS) of the keyframe. To evaluate video reasoning, we propose two tasks: Video Infilling and Video Prediction, which test abilities to generate multiple intermediate keyframes and predict future keyframes, respectively. We benchmark GPT-4, GPT-3, and VICUNA on VIP, demonstrate the performance gap in these complex video reasoning tasks, and encourage future work to prioritize language models for efficient and generalized video reasoning.
翻訳日:2023-11-07 22:41:36 公開日:2023-11-03
# 人間のフィードバックによる抽出QAの継続的な改善

Continually Improving Extractive QA via Human Feedback ( http://arxiv.org/abs/2305.12473v2 )

ライセンス: Link先を確認
Ge Gao, Hung-Ting Chen, Yoav Artzi and Eunsol Choi(参考訳) 本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。 我々は,情報検索者が質問をし,モデル予測された回答を受け取り,フィードバックを提供する反復的なアプローチを設計し,展開する。 多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。 提案実験は,ドメイン適応の有意な可能性を含む,異なるデータレジームにわたる抽出QAモデルのユーザフィードバックによる効果的な改善を示す。

We study continually improving an extractive question answering (QA) system via human user feedback. We design and deploy an iterative approach, where information-seeking users ask questions, receive model-predicted answers, and provide feedback. We conduct experiments involving thousands of user interactions under diverse setups to broaden the understanding of learning from feedback over time. Our experiments show effective improvement from user feedback of extractive QA models over time across different data regimes, including significant potential for domain adaptation.
翻訳日:2023-11-07 22:40:15 公開日:2023-11-03
# balanced adversarial modelにおける適応データ解析

Adaptive Data Analysis in a Balanced Adversarial Model ( http://arxiv.org/abs/2305.15452v2 )

ライセンス: Link先を確認
Kobbi Nissim, Uri Stemmer, Eliad Tsfadia(参考訳) 適応データ分析において、メカニズムは未知の分布から$D$から$n$、すなわち$D$のサンプルを取得し、適応的に選択された統計的クエリのシーケンスに対して正確な推定を行う必要がある。 Hardt and Ullman (FOCS 2014) と Steinke and Ullman (COLT 2015) は、一般に、片方向関数の存在を前提として、$\Theta(n^2)$ Adaptive query 以上の答えは計算的に困難であることを示した。 しかし、これらの否定的な結果は、アダプティブクエリを選択したアナリストが基盤となるディストリビューションである$d$を選択するため、そのメカニズムよりも敵アナリストに著しく有利な敵モデルに強く依存している。 この不均衡は、得られた硬度結果の適用性に関する疑問を提起する -- 基礎となる分布について完全な知識を持つアナリストは、$D$から有限個のサンプルしか持たないメカニズムに統計的クエリを発行する必要性はほとんどない。 より制限された敵は \emph{ Balanced} と呼ばれ、それぞれの敵は2つの分離されたアルゴリズムから構成される: 分布を選択し、そのメカニズムにサンプルを提供する存在である \emph{sampler} と、適応的なクエリを選択するが、基礎となる分布について事前の知識を持たない(従って、そのメカニズムに関して事前の優位性を持たない)。 我々は,通常の公開鍵暗号の仮定の下で,効率のよい 'emph{ Balanced} 逆数を用いて再検討することで,以前の下位境界の品質を向上させる。 これらの強硬度仮定は、すべての既知の攻撃の構造を持つ計算的に有界な \emph{balanced} 逆元が公開鍵暗号の存在を暗示するという意味では避けられない。

In adaptive data analysis, a mechanism gets $n$ i.i.d. samples from an unknown distribution $D$, and is required to provide accurate estimations to a sequence of adaptively chosen statistical queries with respect to $D$. Hardt and Ullman (FOCS 2014) and Steinke and Ullman (COLT 2015) showed that in general, it is computationally hard to answer more than $\Theta(n^2)$ adaptive queries, assuming the existence of one-way functions. However, these negative results strongly rely on an adversarial model that significantly advantages the adversarial analyst over the mechanism, as the analyst, who chooses the adaptive queries, also chooses the underlying distribution $D$. This imbalance raises questions with respect to the applicability of the obtained hardness results -- an analyst who has complete knowledge of the underlying distribution $D$ would have little need, if at all, to issue statistical queries to a mechanism which only holds a finite number of samples from $D$. We consider more restricted adversaries, called \emph{balanced}, where each such adversary consists of two separated algorithms: The \emph{sampler} who is the entity that chooses the distribution and provides the samples to the mechanism, and the \emph{analyst} who chooses the adaptive queries, but has no prior knowledge of the underlying distribution (and hence has no a priori advantage with respect to the mechanism). We improve the quality of previous lower bounds by revisiting them using an efficient \emph{balanced} adversary, under standard public-key cryptography assumptions. We show that these stronger hardness assumptions are unavoidable in the sense that any computationally bounded \emph{balanced} adversary that has the structure of all known attacks, implies the existence of public-key cryptography.
翻訳日:2023-11-07 22:30:09 公開日:2023-11-03
# OOD例を用いた大規模言語モデルの一般推論能力の検証

Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples ( http://arxiv.org/abs/2305.15269v3 )

ライセンス: Link先を確認
Abulhair Saparov, Richard Yuanzhe Pang, Vishakh Padmakumar, Nitish Joshi, Seyed Mehran Kazemi, Najoung Kim, He He(参考訳) 証明の空間の難解な大きさを考えると、一般帰納的推論が可能なモデルは、より複雑な証明に一般化しなければならない。 近年の研究では、大規模言語モデル(llm)は、思考連鎖のプロンプトを与える抽象的推論能力を持っていることが示されている。 しかし、それらは主に、モーダスポネンまたは特定の大きさの証明、およびインコンテキストの例と同じ分布でテストされてきた。 LLMの一般的な推論能力を測定するために、我々は幅広い推論規則を検証し、より複雑な証明に一般化する能力を、複数の角度からより単純な演示(深さ、幅、組成の一般化)から測定する。 体系的な探索を容易にするために,推論規則と証明複雑性の制御を可能にする新しい合成およびプログラム可能な推論データセットを構築した。 様々なサイズと訓練目的の4つのllmについて実験した結果,合成証明に一般化できることがわかった。 しかし、それらはより長い証明への一般化が困難であり、特にケースによる証明と矛盾による証明において、仮説的な準防備を生成するために明示的なデモンストレーションを必要とする。

Given the intractably large size of the space of proofs, any model that is capable of general deductive reasoning must generalize to proofs of greater complexity. Recent studies have shown that large language models (LLMs) possess some abstract deductive reasoning ability given chain-of-thought prompts. However, they have primarily been tested on proofs using modus ponens or of a specific size, and from the same distribution as the in-context examples. To measure the general deductive reasoning ability of LLMs, we test on a broad set of deduction rules and measure their ability to generalize to more complex proofs from simpler demonstrations from multiple angles: depth-, width-, and compositional generalization. To facilitate systematic exploration, we construct a new synthetic and programmable reasoning dataset that enables control over deduction rules and proof complexity. Our experiments on four LLMs of various sizes and training objectives show that they are able to generalize to compositional proofs. However, they have difficulty generalizing to longer proofs, and they require explicit demonstrations to produce hypothetical subproofs, specifically in proof by cases and proof by contradiction.
翻訳日:2023-11-07 22:29:07 公開日:2023-11-03
# ClusterLLM: テキストクラスタリングガイドとしての大規模言語モデル

ClusterLLM: Large Language Models as a Guide for Text Clustering ( http://arxiv.org/abs/2305.14871v2 )

ライセンス: Link先を確認
Yuwei Zhang, Zihan Wang, Jingbo Shang(参考訳) chatgpt のような命令調整された大規模言語モデルからのフィードバックを活用する,新しいテキストクラスタリングフレームワーク clusterllm を紹介する。 従来の"小さな"埋め込みをベースとした教師なしの手法と比較して、ClusterLLMは、(1)埋め込みがアクセスできない場合でもLCMの創発的な能力を享受し、(2)テキスト命令や注釈付きデータによるクラスタリングに対するユーザの好みを理解している。 まず,A,B,Cが異なるクラスタに属する類似データポイントである場合,強硬な三重項質問<does A better to B than C>を構成することにより,クラスタリングの視点についての洞察をChatGPTに促す。 筆者らは,この戦略が小型埋め込み機の微調整とChatGPTクエリのコスト効率に有効であることを実証的に示す。 第二に、ChatGPTは、ペアワイズな質問<do AとBは同じカテゴリに属する>によって、クラスタの粒度をクラスタ化するのに役立ち、ChatGPTの回答と最も整合したクラスタ階層から粒度を調整する。 14のデータセットに対する大規模な実験によると、ClusterLLMはデータセット当たりの平均コストが約0.6ドルで、クラスタリング品質を継続的に改善している。 コードはhttps://github.com/zhang-yu-wei/clusterllmで入手できる。

We introduce ClusterLLM, a novel text clustering framework that leverages feedback from an instruction-tuned large language model, such as ChatGPT. Compared with traditional unsupervised methods that builds upon "small" embedders, ClusterLLM exhibits two intriguing advantages: (1) it enjoys the emergent capability of LLM even if its embeddings are inaccessible; and (2) it understands the user's preference on clustering through textual instruction and/or a few annotated data. First, we prompt ChatGPT for insights on clustering perspective by constructing hard triplet questions <does A better correspond to B than C>, where A, B and C are similar data points that belong to different clusters according to small embedder. We empirically show that this strategy is both effective for fine-tuning small embedder and cost-efficient to query ChatGPT. Second, we prompt ChatGPT for helps on clustering granularity by carefully designed pairwise questions <do A and B belong to the same category>, and tune the granularity from cluster hierarchies that is the most consistent with the ChatGPT answers. Extensive experiments on 14 datasets show that ClusterLLM consistently improves clustering quality, at an average cost of ~$0.6 per dataset. The code will be available at https://github.com/zhang-yu-wei/ClusterLLM.
翻訳日:2023-11-07 22:27:39 公開日:2023-11-03
# CAT-Walk: セットウォークによるインダクティブハイパーグラフ学習

CAT-Walk: Inductive Hypergraph Learning via Set Walks ( http://arxiv.org/abs/2306.11147v2 )

ライセンス: Link先を確認
Ali Behrouz, Farnoosh Hashemi, Sadaf Sadeghian, Margo Seltzer(参考訳) テンポラルハイパーグラフは、複雑なシステムにおける時間依存の高次相互作用をモデル化するための強力なパラダイムを提供する。 ハイパーグラフの表現学習は、ソーシャルネットワーク分析、神経科学、金融などにおける現実の問題において重要な高次相互作用のパターンを抽出するために不可欠である。 しかし、既存のメソッドは通常、特定のタスクや静的ハイパーグラフに対してのみ設計される。 本稿では,時間的ハイパーグラフに基づく時間的および構造的プロセスを管理する動的法則を学習する帰納的手法であるCAT-Walkを提案する。 CAT-Walkは、高階因果パターンを抽出するハイパーグラフの時間的、高階ウォークであるSetWalkを導入している。 CAT-Walkは、新しい適応的で置換不変なプール戦略であるSetMixerと、ハイパーエッジの同一性を隠蔽するセットベースの匿名化プロセスを使用している。 最後に,ハイパーエッジを符号化するシンプルなニューラルネットワークモデルを提案する。 CAT-Walkは, インダクティブおよびトランスダクティブの両方において, 時間的ハイパーエッジ予測ベンチマークにおいて優れた性能を発揮することを示す。 また、ノード分類のための最先端手法と競合する性能を示す。 (https://github.com/ubc-systopia/CATWalk)

Temporal hypergraphs provide a powerful paradigm for modeling time-dependent, higher-order interactions in complex systems. Representation learning for hypergraphs is essential for extracting patterns of the higher-order interactions that are critically important in real-world problems in social network analysis, neuroscience, finance, etc. However, existing methods are typically designed only for specific tasks or static hypergraphs. We present CAT-Walk, an inductive method that learns the underlying dynamic laws that govern the temporal and structural processes underlying a temporal hypergraph. CAT-Walk introduces a temporal, higher-order walk on hypergraphs, SetWalk, that extracts higher-order causal patterns. CAT-Walk uses a novel adaptive and permutation invariant pooling strategy, SetMixer, along with a set-based anonymization process that hides the identity of hyperedges. Finally, we present a simple yet effective neural network model to encode hyperedges. Our evaluation on 10 hypergraph benchmark datasets shows that CAT-Walk attains outstanding performance on temporal hyperedge prediction benchmarks in both inductive and transductive settings. It also shows competitive performance with state-of-the-art methods for node classification. (https://github.com/ubc-systopia/CATWalk)
翻訳日:2023-11-07 22:06:31 公開日:2023-11-03
# 分子内の電子デコヒーレンス経路のマッピング

Mapping Electronic Decoherence Pathways in Molecules ( http://arxiv.org/abs/2306.08574v2 )

ライセンス: Link先を確認
Ignacio Gustin, Chang Woo Kim, David W. McCamant and Ignacio Franco(参考訳) 分子電子量子デコヒーレンスを支配する基本的な化学原理を確立することは、依然として顕著な課題である。 溶媒と分子内振動や化学機能化がデコヒーレンスにどのように寄与するかといった基本的な疑問は未解決のままであり、最先端の理論的および実験的アプローチの到達を超えている。 そこで本研究では, 凝縮相環境に浸漬した分子クロマトフォの電子的デコヒーレンス経路を分離し, 電子的量子コヒーレンスの損失を解明する手法を開発した。 そこで本研究では, 共鳴ラマン分光法を, 室温, 溶媒, 蛍光分子, 非蛍光分子の化学複雑度で分子スペクトル密度を再構成する一般的な実験手法として同定した。 次に、スペクトル密度から脱コヒーレンスダイナミクスを定量的に捉え、脱コヒーレンス経路を個々の分子振動や溶媒モードによる寄与に分解して同定する方法を示す。 DNA塩基チミンの水中における電子的脱コヒーレンス経路の解析による戦略の有用性について述べる。 電子コヒーレンスは約30 fsで崩壊する。 早期のデコヒーレンスは分子内振動によって決定され、溶媒によって全崩壊する。 チミンの化学置換は、チミン環と水との水素結合相互作用によってデコヒーレンスを調節し、最も速いデコヒーレンスへと導く。 温度の上昇は溶媒の寄与の重要性を高めるため脱コヒーレンスを速くするが、初期の脱コヒーレンスダイナミクスはそのまま残る。 開発された戦略は、分子構造と量子デコヒーレンスの間の関係を確立する重要な機会を開き、それを合理的に調節する化学戦略を開発する。

Establishing the fundamental chemical principles that govern molecular electronic quantum decoherence has remained an outstanding challenge. Fundamental questions such as how solvent and intramolecular vibrations or chemical functionalization contribute to the decoherence remain unanswered and are beyond the reach of state-of-the art theoretical and experimental approaches. Here we address this challenge by developing a strategy to isolate electronic decoherence pathways for molecular chromophores immersed in condensed phase environments that enables elucidating how electronic quantum coherence is lost. For this, we first identify resonant Raman spectroscopy as a general experimental method to reconstruct molecular spectral densities with full chemical complexity at room temperature, in solvent, and for fluorescent and non-fluorescent molecules. We then show how to quantitatively capture the decoherence dynamics from the spectral density and identify decoherence pathways by decomposing the overall coherence loss into contributions due to individual molecular vibrations and solvent modes. We illustrate the utility of the strategy by analyzing the electronic decoherence pathways of the DNA base thymine in water. Its electronic coherences decay in ~ 30 fs. The early-time decoherence is determined by intramolecular vibrations while the overall decay by solvent. Chemical substitution of thymine modulates the decoherence with hydrogen-bond interactions of the thymine ring with water leading to the fastest decoherence. Increasing temperature leads to faster decoherence as it enhances the importance of solvent contributions but leaves the early-time decoherence dynamics intact. The developed strategy opens key opportunities to establish the connection between molecular structure and quantum decoherence as needed to develop chemical strategies to rationally modulate it.
翻訳日:2023-11-07 22:05:17 公開日:2023-11-03
# 畳み込み理論に基づく量子乗算アルゴリズム

Quantum Multiplication Algorithm Based on the Convolution Theorem ( http://arxiv.org/abs/2306.08473v2 )

ライセンス: Link先を確認
Mehdi Ramezani, Morteza Nikaeen, Farnaz Farman, Seyed Mahmoud Ashrafi and Alireza Bahrampour(参考訳) 大量の効率的な乗算の問題は古典計算における長年の課題であり、何世紀にもわたって広く研究されてきた。 既存の古典的アルゴリズムは理論上の限界に近づき、さらなる拡張の余地はほとんどないようである。 しかし、量子コンピュータの出現と量子ハードウェア上での乗算が可能な量子アルゴリズムの必要性により、新しいパラダイムが出現する。 本稿では,畳み込み定理と量子振幅増幅パラダイムに触発されて,最もよく知られた古典的アルゴリズムであるharveyアルゴリズムをo(n \log n)$で上回る,時間複雑性を持つ整数乗算のための量子アルゴリズムを提案する。 Harveyアルゴリズムとは異なり、我々のアルゴリズムは極端に大きな数にのみ適用できるという制限を持たず、幅広い整数乗法タスクに対して汎用的な選択となる。 この論文はまた、古典的乗法アルゴリズムの歴史と発展をレビューし、量子リソースがこの根本的な問題に対する新しい視点と可能性を提供する方法を探る動機付けである。

The problem of efficient multiplication of large numbers has been a long-standing challenge in classical computation and has been extensively studied for centuries. It appears that the existing classical algorithms are close to their theoretical limit and offer little room for further enhancement. However, with the advent of quantum computers and the need for quantum algorithms that can perform multiplication on quantum hardware, a new paradigm emerges. In this paper, inspired by convolution theorem and quantum amplitude amplification paradigm we propose a quantum algorithms for integer multiplication with time complexity $O(\sqrt{n}\log^2 n)$ which outperforms the best-known classical algorithm, the Harvey algorithm with time complexity of $O(n \log n)$. Unlike the Harvey algorithm, our algorithm does not have the restriction of being applicable solely to extremely large numbers, making it a versatile choice for a wide range of integer multiplication tasks. The paper also reviews the history and development of classical multiplication algorithms and motivates us to explore how quantum resources can provide new perspectives and possibilities for this fundamental problem.
翻訳日:2023-11-07 22:04:48 公開日:2023-11-03
# RLHFは標準RLよりも難易度が高いか?

Is RLHF More Difficult than Standard RL? ( http://arxiv.org/abs/2306.14111v2 )

ライセンス: Link先を確認
Yuanhao Wang, Qinghua Liu, Chi Jin(参考訳) ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。 選好は報奨よりも情報が少ないため、選好ベースのRLは明らかに困難である。 本論文は,幅広い選好モデルにおいて,既存のアルゴリズムや手法を用いて,報酬ベースのrlを直接解くことができることを理論的に証明する。 具体的には、(1)報酬ベースの確率モデルから引き出された選好については、報酬の小さな誤差を許容する頑健な報奨ベースのrlに、(2)フォン・ノイマンの勝者を見つけることを目的とした一般の任意の選好については、制限されたポリシーの制約付きマルコフゲームに対してナッシュ平衡を求めるマルチエージェントの報奨ベースのrlに、問題を還元する。 後者の場合、好みが最終状態にのみ依存する場合、さらに敵のMDPに還元することができる。 具体的証明可能なアルゴリズムによりすべての報酬に基づくRLサブルーチンをインスタンス化し、汎用関数近似を用いた表型MDPやMDPを含むモデルのモデルに適用する。 さらに、K-wise比較が利用可能である場合の保証も提供する。

Reinforcement learning from Human Feedback (RLHF) learns from preference signals, while standard Reinforcement Learning (RL) directly learns from reward signals. Preferences arguably contain less information than rewards, which makes preference-based RL seemingly more difficult. This paper theoretically proves that, for a wide range of preference models, we can solve preference-based RL directly using existing algorithms and techniques for reward-based RL, with small or no extra costs. Specifically, (1) for preferences that are drawn from reward-based probabilistic models, we reduce the problem to robust reward-based RL that can tolerate small errors in rewards; (2) for general arbitrary preferences where the objective is to find the von Neumann winner, we reduce the problem to multiagent reward-based RL which finds Nash equilibria for factored Markov games with a restricted set of policies. The latter case can be further reduced to adversarial MDP when preferences only depend on the final state. We instantiate all reward-based RL subroutines by concrete provable algorithms, and apply our theory to a large class of models including tabular MDPs and MDPs with generic function approximation. We further provide guarantees when K-wise comparisons are available.
翻訳日:2023-11-07 21:50:29 公開日:2023-11-03
# AIが信頼性の高いFlood Forecastへのグローバルアクセスを拡大

AI Increases Global Access to Reliable Flood Forecasts ( http://arxiv.org/abs/2307.16104v4 )

ライセンス: Link先を確認
Grey Nearing, Deborah Cohen, Vusumuzi Dube, Martin Gauch, Oren Gilon, Shaun Harrigan, Avinatan Hassidim, Daniel Klotz, Frederik Kratzert, Asher Metzger, Sella Nevo, Florian Pappenberger, Christel Prudhomme, Guy Shalev, Shlomo Shenzis, Tadele Tekalign, Dana Weitzner, Yoss Matias(参考訳) 洪水は最も一般的な自然災害の1つであり、しばしば密集した流量計のネットワークを欠く発展途上国に不釣り合いな影響をもたらす。 洪水リスクを軽減するためには正確な警告とタイムリーな警告が重要であるが、水文シミュレーションモデルは通常、各流域の長いデータ記録に調整する必要がある。 AIを用いて、アートグローバルモデリングシステム(Copernicus Emergency Management Service Global Flood Awareness System)の現在の状態から、現在放送(0日間のリードタイム)の信頼性に類似する5日間のリードタイムで、未舗装の流域における極端な河川イベントを予測する信頼性を実現する。 さらに,1年間の復帰期間における現在と類似又は良好な5年間の復帰期間イベントに対して,適応度が達成される。 つまり、AIは未掘削の盆地で、より大きく、より衝撃的なイベントよりも早く、洪水警告を提供することができる。 本論文で開発されたモデルは,80カ国以上でリアルタイムに利用可能な(自由かつオープンな)予測を生成する運用早期警戒システムに組み込まれた。 この研究は、信頼できる洪水警報へのグローバルアクセスを改善し続けるために、水文データの可用性を高める必要性を強調している。

Floods are one of the most common natural disasters, with a disproportionate impact in developing countries that often lack dense streamflow gauge networks. Accurate and timely warnings are critical for mitigating flood risks, but hydrological simulation models typically must be calibrated to long data records in each watershed. Using AI, we achieve reliability in predicting extreme riverine events in ungauged watersheds at up to a 5-day lead time that is similar to or better than the reliability of nowcasts (0-day lead time) from a current state of the art global modeling system (the Copernicus Emergency Management Service Global Flood Awareness System). Additionally, we achieve accuracies over 5-year return period events that are similar to or better than current accuracies over 1-year return period events. This means that AI can provide flood warnings earlier and over larger and more impactful events in ungauged basins. The model developed in this paper was incorporated into an operational early warning system that produces publicly available (free and open) forecasts in real time in over 80 countries. This work highlights a need for increasing the availability of hydrological data to continue to improve global access to reliable flood warnings.
翻訳日:2023-11-07 21:40:21 公開日:2023-11-03
# Flamingo: プライベートフェデレーションラーニングへの応用を目的としたマルチロードシングルサーバセキュアアグリゲーション

Flamingo: Multi-Round Single-Server Secure Aggregation with Applications to Private Federated Learning ( http://arxiv.org/abs/2308.09883v2 )

ライセンス: Link先を確認
Yiping Ma, Jess Woods, Sebastian Angel, Antigoni Polychroniadou, Tal Rabin(参考訳) 本稿では,大規模なクライアント間でデータをセキュアに集約するシステムであるFlamingoを紹介する。 セキュアアグリゲーションでは、サーバはクライアントのプライベートインプットを合計し、最終アグリゲーションによって入力されるもの以上の個々のインプットについて何も学ばずに結果を得る。 flamingoは、モデル重みの連続した和(平均値)が良いモデルを引き出すフェデレーション学習に見られる多ラウンド設定に焦点を当てている。 bell et al. (ccs '20) のような以前のプロトコルは単一のラウンド用に設計されており、複数回プロトコルを繰り返して連合学習環境に適合している。 Flamingoは、以前のプロトコルのラウンド単位のセットアップの必要性を排除し、クライアントがサムの中央にある場合、サーバが意味のある結果が得られるように、新しい軽量なドロップアウトレジリエンスプロトコルを備えている。 さらにFlamingoは、Bellらによって導入されたいわゆるクライアント地区をローカルに選択する新しい方法を導入した。 これらのテクニックは、Flamingoがクライアントとサーバ間のインタラクションの数を減らすのに役立つ。 我々はFlamingoを実装して評価し、(拡張)MNISTとCIFAR-100データセット上でニューラルネットワークをセキュアにトレーニングできることを示し、非プライベートなフェデレート学習システムと比較して精度を損なうことなくモデルを収束させる。

This paper introduces Flamingo, a system for secure aggregation of data across a large set of clients. In secure aggregation, a server sums up the private inputs of clients and obtains the result without learning anything about the individual inputs beyond what is implied by the final sum. Flamingo focuses on the multi-round setting found in federated learning in which many consecutive summations (averages) of model weights are performed to derive a good model. Previous protocols, such as Bell et al. (CCS '20), have been designed for a single round and are adapted to the federated learning setting by repeating the protocol multiple times. Flamingo eliminates the need for the per-round setup of previous protocols, and has a new lightweight dropout resilience protocol to ensure that if clients leave in the middle of a sum the server can still obtain a meaningful result. Furthermore, Flamingo introduces a new way to locally choose the so-called client neighborhood introduced by Bell et al. These techniques help Flamingo reduce the number of interactions between clients and the server, resulting in a significant reduction in the end-to-end runtime for a full training session over prior work. We implement and evaluate Flamingo and show that it can securely train a neural network on the (Extended) MNIST and CIFAR-100 datasets, and the model converges without a loss in accuracy, compared to a non-private federated learning system.
翻訳日:2023-11-07 21:28:43 公開日:2023-11-03
# 安定なグラフ表現学習におけるグラフカノン化の力の再考

Rethinking the Power of Graph Canonization in Graph Representation Learning with Stability ( http://arxiv.org/abs/2309.00738v2 )

ライセンス: Link先を確認
Zehao Dong, Muhan Zhang, Philip R.O. Payne, Michael A Province, Carlos Cruchaga, Tianyu Zhao, Fuhai Li, Yixin Chen(参考訳) グラフニューラルネットワーク(GNN)の表現性は近年,より強力なGNNの設計原則を明らかにするために広く研究されている。 グラフカノン化は非同型グラフを区別する典型的な手法として知られているが、表現的なGNNを開発する際にはほとんど採用されない。 本稿では,グラフの正準化によりgnnの表現性を最大化し,モデル安定性の観点からgnnのパワーを考察する。 安定なGNNは、類似グラフをベクトル空間の閉グラフ表現にマッピングし、GNNの安定性は、その性能を目に見えないグラフに一般化することが重要である。 グラフカノン化強化GNNにおける表現性と安定性のトレードオフを理論的に明らかにする。 次に、トレードオフに対処する一般解として普遍グラフカノン化の概念を導入し、普遍グラフカノン化を解決するために広く適用可能な条件を特徴づける。 実験の総合的なセットは,提案手法の有効性を示すものである。 多くのグラフベンチマークデータセットにおいて、グラフカノン化はGNNの強化に成功し、高い競争性能を提供し、グラフ表現学習における提案手法の可能性と可能性を示している。 十分な条件が満たされたグラフデータセットでは、普遍的なグラフキャノン化によって強化されたGNNは、GNNのベースラインを一貫して上回り、SOTAのパフォーマンスを311 %まで向上させ、バイオインフォマティクスにおける遺伝子ネットワーク表現学習のような、多くの課題のある実世界のグラフ解析タスクに対する最適な解決策を提供する。

The expressivity of Graph Neural Networks (GNNs) has been studied broadly in recent years to reveal the design principles for more powerful GNNs. Graph canonization is known as a typical approach to distinguish non-isomorphic graphs, yet rarely adopted when developing expressive GNNs. This paper proposes to maximize the expressivity of GNNs by graph canonization, then the power of such GNNs is studies from the perspective of model stability. A stable GNN will map similar graphs to close graph representations in the vectorial space, and the stability of GNNs is critical to generalize their performance to unseen graphs. We theoretically reveal the trade-off of expressivity and stability in graph-canonization-enhanced GNNs. Then we introduce a notion of universal graph canonization as the general solution to address the trade-off and characterize a widely applicable sufficient condition to solve the universal graph canonization. A comprehensive set of experiments demonstrates the effectiveness of the proposed method. In many popular graph benchmark datasets, graph canonization successfully enhances GNNs and provides highly competitive performance, indicating the capability and great potential of proposed method in general graph representation learning. In graph datasets where the sufficient condition holds, GNNs enhanced by universal graph canonization consistently outperform GNN baselines and successfully improve the SOTA performance up to $31\%$, providing the optimal solution to numerous challenging real-world graph analytical tasks like gene network representation learning in bioinformatics.
翻訳日:2023-11-07 21:17:01 公開日:2023-11-03
# 黄斑変性研究に応用された異種報告結果決定要因に関する比較話題モデリング

Comparative Topic Modeling for Determinants of Divergent Report Results Applied to Macular Degeneration Studies ( http://arxiv.org/abs/2309.00312v2 )

ライセンス: Link先を確認
Lucas Cassiel Jacaruso(参考訳) トピックモデリングとテキストマイニングは、自然言語処理(NLP)のサブセットであり、メタ分析(MA)と体系的レビュー(SR)の実施に関係している。 証拠合成では、従来のNLP法は、SRとMAの必須フェーズを自動化するために、トピック固有の文献検索やレポートからの値抽出に用いられている。 そこで本研究では,同じ一般研究質問に対する矛盾した結果の報告を分析するための,比較トピックモデリング手法を提案する。 具体的には、有意な影響の報告(および分布の整合性)に比例して分類することで、利害関係に有意な結果をもたらすトピックを識別することを目的とする。 本手法は, 補充栄養成分が黄斑変性(MD)に有益であるか否かを, 広視野で検討した。 6種類の化合物がMDに有意な効果を示す報告と特異的に関連していると同定された。 これらのうち4つは, 続いて文献による検証(オメガ-3脂肪酸, 銅, ゼアキサンチン, 硝酸塩)を行った。 フォローアップ文献検索 (niacin and molybdenum) では支持されていない2つの項目は,提案するスコアシステムの下でも最も低いスコアを有しており,提案手法のスコアが利害関係の帰結の程度を示す有効な指標であり,潜在的因果関係の探索に有用であることが示唆された。 これらの結果から,提案手法は,広視野報告書の効果の理解に特異性を加え,今後の研究の課題を解明し,体系的かつスケーラブルな手法でエビデンス合成を導出する可能性が示唆された。

Topic modeling and text mining are subsets of Natural Language Processing (NLP) with relevance for conducting meta-analysis (MA) and systematic review (SR). For evidence synthesis, the above NLP methods are conventionally used for topic-specific literature searches or extracting values from reports to automate essential phases of SR and MA. Instead, this work proposes a comparative topic modeling approach to analyze reports of contradictory results on the same general research question. Specifically, the objective is to identify topics exhibiting distinct associations with significant results for an outcome of interest by ranking them according to their proportional occurrence in (and consistency of distribution across) reports of significant effects. The proposed method was tested on broad-scope studies addressing whether supplemental nutritional compounds significantly benefit macular degeneration (MD). Six compounds were identified as having a particular association with reports of significant results for benefiting MD. Four of these were further supported in terms of effectiveness upon conducting a follow-up literature search for validation (omega-3 fatty acids, copper, zeaxanthin, and nitrates). The two not supported by the follow-up literature search (niacin and molybdenum) also had the lowest scores under the proposed scoring system, suggesting that the proposed method's score for a given topic is a viable proxy for its degree of association with the outcome of interest and is helpful in the search for potentially causal relationships. These results underpin the proposed methods potential to add specificity in understanding effects from broad-scope reports, elucidate topics of interest for future research, and guide evidence synthesis in a systematic and scalable way.
翻訳日:2023-11-07 21:16:35 公開日:2023-11-03
# 自己サンプリング型メタSAM:メタラーニングによる医療画像の断片化

Self-Sampling Meta SAM: Enhancing Few-shot Medical Image Segmentation with Meta-Learning ( http://arxiv.org/abs/2308.16466v3 )

ライセンス: Link先を確認
Yiming Zhang, Tianang Leng, Kun Han, Xiaohui Xie(参考訳) SAM(Segment Anything Model)は汎用画像のセマンティックセグメンテーションに優れるが、医用画像に適用した場合、主に訓練データセットにおける医用画像の表現不足に起因するパフォーマンスが著しく低下する。 それでも、広く適用可能な包括的なデータセットやトレーニングモデルを集めることは、医用画像に共通する長い尾の問題のために特に困難である。 このギャップに対処するために、数ショットの医用画像分割のためのSelf-Sampling Meta SAM (SSM-SAM) フレームワークを提案する。 私たちのイノベーションは3つの重要なモジュールの設計にあります。 1) オンラインの高速勾配降下最適化器はメタラーナーによってさらに最適化され、新しいタスクへの迅速かつ堅牢な適応が保証される。 2)注意の配置を改善するために、よく整列した視覚プロンプトを提供するように設計された自己サンプリングモジュール 3) 異なるスライス間の関係を捉えるために, 医療用少数ショット学習用に設計された頑健な注意ベースデコーダ。 一般的な腹部CTデータセットとMRIデータセットの広範な実験により、提案手法は、数ショットのセグメンテーションにおいて最先端の手法よりも大幅に改善され、それぞれ10.21%と1.80%の改善が達成された。 そこで本研究では,対話型画像セグメンテーションにおけるオンライン適応の迅速化について,0.83分で新しい臓器に適応できる新しい手法を提案する。 コードは受け付け次第githubで公開されている。

While the Segment Anything Model (SAM) excels in semantic segmentation for general-purpose images, its performance significantly deteriorates when applied to medical images, primarily attributable to insufficient representation of medical images in its training dataset. Nonetheless, gathering comprehensive datasets and training models that are universally applicable is particularly challenging due to the long-tail problem common in medical images. To address this gap, here we present a Self-Sampling Meta SAM (SSM-SAM) framework for few-shot medical image segmentation. Our innovation lies in the design of three key modules: 1) An online fast gradient descent optimizer, further optimized by a meta-learner, which ensures swift and robust adaptation to new tasks. 2) A Self-Sampling module designed to provide well-aligned visual prompts for improved attention allocation; and 3) A robust attention-based decoder specifically designed for medical few-shot learning to capture relationship between different slices. Extensive experiments on a popular abdominal CT dataset and an MRI dataset demonstrate that the proposed method achieves significant improvements over state-of-the-art methods in few-shot segmentation, with an average improvements of 10.21% and 1.80% in terms of DSC, respectively. In conclusion, we present a novel approach for rapid online adaptation in interactive image segmentation, adapting to a new organ in just 0.83 minutes. Code is publicly available on GitHub upon acceptance.
翻訳日:2023-11-07 21:15:46 公開日:2023-11-03
# FleschかFumbleか? 命令型言語モデルの可読性標準アライメントの評価

Flesch or Fumble? Evaluating Readability Standard Alignment of Instruction-Tuned Language Models ( http://arxiv.org/abs/2309.05454v2 )

ライセンス: Link先を確認
Joseph Marvin Imperial, Harish Tayyar Madabushi(参考訳) flesch kincaid grade level (fkgl) やcommon european framework of reference for languages (cefr) といった可読性指標や標準は、教師や教育者が教育教材の複雑さを適切に評価するために教室で使用するために使用される。 本研究では,様々なオープン・クローズド・ソース・インストラクション・チューニング言語モデルを選択し,教師がテキスト可読性を制御する標準ガイドプロンプトを用いて,ストーリーの完成と物語の単純化におけるパフォーマンスについて検討する。 以上の結果から,ChatGPTのような世界規模で認識されているモデルは,BLOOMZやFlanT5といった他のオープンソースモデルと比較して,これらの生成タスクに対してより洗練されたプロンプトを必要とする可能性が示唆された。

Readability metrics and standards such as Flesch Kincaid Grade Level (FKGL) and the Common European Framework of Reference for Languages (CEFR) exist to guide teachers and educators to properly assess the complexity of educational materials before administering them for classroom use. In this study, we select a diverse set of open and closed-source instruction-tuned language models and investigate their performances in writing story completions and simplifying narratives--tasks that teachers perform--using standard-guided prompts controlling text readability. Our extensive findings provide empirical proof of how globally recognized models like ChatGPT may be considered less effective and may require more refined prompts for these generative tasks compared to other open-sourced models such as BLOOMZ and FlanT5--which have shown promising results.
翻訳日:2023-11-07 21:02:48 公開日:2023-11-03
# 洪水浸水マッピングのための新しいGeoAI基盤モデルの評価

Assessment of a new GeoAI foundation model for flood inundation mapping ( http://arxiv.org/abs/2309.14500v4 )

ライセンス: Link先を確認
Wenwen Li, Hyunho Lee, Sizhe Wang, Chia-Yu Hsu, Samantha T. Arundel(参考訳) ビジョンファウンデーションモデルは、地理空間的問題解決と地理知識発見のためにAIを適用し拡張する学際的な研究領域であるGeoAI(Geospatial Artificial Intelligence)の新しいフロンティアである。 そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。 このモデルは、畳み込みニューラルネットワークや視覚トランスフォーマーベースのアーキテクチャと、浸水した地域のマッピング精度で比較される。 ベンチマークデータセットであるsen1floods11を実験に使用し、そのモデルによって完全に認識されていないテストデータセットとデータセットの両方に基づいて、モデルの予測可能性、一般化性、転送性を評価する。 以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。 また,マルチスケールな表現学習の導入,高レベルの画像解析タスクのためのエンドツーエンドパイプラインの開発,入力データバンドの柔軟性の向上などにより,Prithviモデルの改善を図っている。

Vision foundation models are a new frontier in Geospatial Artificial Intelligence (GeoAI), an interdisciplinary research area that applies and extends AI for geospatial problem solving and geographic knowledge discovery, because of their potential to enable powerful image analysis by learning and extracting important image features from vast amounts of geospatial data. This paper evaluates the performance of the first-of-its-kind geospatial foundation model, IBM-NASA's Prithvi, to support a crucial geospatial analysis task: flood inundation mapping. This model is compared with convolutional neural network and vision transformer-based architectures in terms of mapping accuracy for flooded areas. A benchmark dataset, Sen1Floods11, is used in the experiments, and the models' predictability, generalizability, and transferability are evaluated based on both a test dataset and a dataset that is completely unseen by the model. Results show the good transferability of the Prithvi model, highlighting its performance advantages in segmenting flooded areas in previously unseen regions. The findings also indicate areas for improvement for the Prithvi model in terms of adopting multi-scale representation learning, developing more end-to-end pipelines for high-level image analysis tasks, and offering more flexibility in terms of input data bands.
翻訳日:2023-11-07 20:50:31 公開日:2023-11-03
# 最大独立集合に対する反復量子アルゴリズム:低深さ量子アルゴリズムの物語

Iterative Quantum Algorithms for Maximum Independent Set: A Tale of Low-Depth Quantum Algorithms ( http://arxiv.org/abs/2309.13110v2 )

ライセンス: Link先を確認
Lucas T. Brady, Stuart Hadfield(参考訳) 量子アルゴリズムは組合せ最適化問題の文脈で広く研究されている。 この取り組みはしばしば解析的かつ実際に二次的なスピードアップを達成することができるが、理論的および数値的研究は、特に古典的アルゴリズムの研究と比較して、限られている。 本稿では,特に再帰的量子近似最適化アルゴリズムを一般化したIterative Quantum Algorithmsと呼ばれる,量子最適化のための新しいハイブリッド手法を提案する。 このパラダイムは、最大独立集合(MIS)問題を考慮し、ハードな制約を組み込むことができる。 深度$p=1$のQAOAの場合、このアルゴリズムはMISの古典的欲求アルゴリズムと全く同じ操作と選択を行う。 次に、より深い$p>1$の回路や他の古典的アルゴリズムでは容易に模倣できない量子アルゴリズムの修正方法を示し、性能改善を実証的に確認する。 本研究は,実証済みの古典的手法をより効果的なハイブリッド量子古典アルゴリズムに組み込む実践的重要性を実証する。

Quantum algorithms have been widely studied in the context of combinatorial optimization problems. While this endeavor can often analytically and practically achieve quadratic speedups, theoretical and numeric studies remain limited, especially compared to the study of classical algorithms. We propose and study a new class of hybrid approaches to quantum optimization, termed Iterative Quantum Algorithms, which in particular generalizes the Recursive Quantum Approximate Optimization Algorithm. This paradigm can incorporate hard problem constraints, which we demonstrate by considering the Maximum Independent Set (MIS) problem. We show that, for QAOA with depth $p=1$, this algorithm performs exactly the same operations and selections as the classical greedy algorithm for MIS. We then turn to deeper $p>1$ circuits and other ways to modify the quantum algorithm that can no longer be easily mimicked by classical algorithms, and empirically confirm improved performance. Our work demonstrates the practical importance of incorporating proven classical techniques into more effective hybrid quantum-classical algorithms.
翻訳日:2023-11-07 20:48:51 公開日:2023-11-03
# HINT: 健康なインフルエンシャルノイズをベースとしたデータ攻撃防止トレーニング

HINT: Healthy Influential-Noise based Training to Defend against Data Poisoning Attacks ( http://arxiv.org/abs/2309.08549v2 )

ライセンス: Link先を確認
Minh-Hao Van, Alycia N. Carey, Xintao Wu(参考訳) 信頼できないデータソースからの有毒な攻撃を禁止するために、多くの防衛方法が提案されているが、ほとんどの研究は特定の攻撃に対してのみ防御する。 本研究では,影響関数に基づくデータ中毒攻撃から守るための効率的かつ堅牢なトレーニング手法である health influential-noise based trainingを提案する。 影響関数を用いることで,検査データの一般化能力に悪影響を与えることなく,中毒攻撃に対する分類モデルを強固にするための健全なノイズを作成する。 さらに,本手法は,これまでのいくつかの研究で使用されてきたすべての例にノイズを加える方法ではなく,トレーニングデータのサブセットだけを修正した場合に有効に動作する。 我々は,異なる現実的な攻撃シナリオにおいて,最先端の中毒攻撃を伴う2つの画像データセットを総合的に評価する。 実験の結果,HINTは非標的および標的の毒殺攻撃の効果に対して,ディープラーニングモデルを効果的に保護できることがわかった。

While numerous defense methods have been proposed to prohibit potential poisoning attacks from untrusted data sources, most research works only defend against specific attacks, which leaves many avenues for an adversary to exploit. In this work, we propose an efficient and robust training approach to defend against data poisoning attacks based on influence functions, named Healthy Influential-Noise based Training. Using influence functions, we craft healthy noise that helps to harden the classification model against poisoning attacks without significantly affecting the generalization ability on test data. In addition, our method can perform effectively when only a subset of the training data is modified, instead of the current method of adding noise to all examples that has been used in several previous works. We conduct comprehensive evaluations over two image datasets with state-of-the-art poisoning attacks under different realistic attack scenarios. Our empirical results show that HINT can efficiently protect deep learning models against the effect of both untargeted and targeted poisoning attacks.
翻訳日:2023-11-07 20:47:04 公開日:2023-11-03
# LogiGLUE: 言語モデルの論理推論能力分析のための簡単な調査とベンチマーク

Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models ( http://arxiv.org/abs/2310.00836v2 )

ライセンス: Link先を確認
Man Luo, Shrinidhi Kumbhar, Ming shen, Mihir Parmar, Neeraj Varshney, Pratyay Banerjee, Somak Aditya, Chitta Baral(参考訳) 論理的推論は人間にとって基本だが、人工知能の領域では大きな課題がある。 当初、研究者はKR(Knowledge Representation and Reasoning)システムを使用していた。 近年,大規模言語モデル (LLM) の出現は,形式的知識表現 (KR) システムの様々な限界を克服する能力を示している。 その結果、自然言語による論理推論にllmを使うことへの関心が高まっている。 本研究は,LLMを論理的推論に活用するための論理的推論データセット,タスク,手法を中心に,この領域における最新の進歩の簡単なレビューを提供することで,論理的推論におけるLLMの習熟度を理解することを目的とする。 詳細な分析を行うため、LogiGLUEというベンチマークをコンパイルしました。 これには、帰納的、帰納的、帰納的推論を含む24種類のデータセットが含まれる。 我々はこれらのデータセットをSeq2Seqタスクに標準化し、将来の研究のための簡単なトレーニングと評価を容易にする。 LogiGLUEを基礎として、我々は命令微調整言語モデルを訓練し、結果としてLogiT5となった。 一つのタスクトレーニング,複数タスクトレーニング,思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。 この包括的プロセスにより、我々はLLMの論理的推論能力を高める能力と潜在的な経路に光を当てることを目指しており、この重要な分野におけるより先進的で曖昧な発展への道を開いた。

Logical reasoning is fundamental for humans yet presents a substantial challenge in the domain of Artificial Intelligence. Initially, researchers used Knowledge Representation and Reasoning (KR) systems that did not scale and required non trivial manual effort. Recently, the emergence of large language models (LLMs) has demonstrated the ability to overcome various limitations of formal Knowledge Representation (KR) systems. Consequently, there is a growing interest in using LLMs for logical reasoning via natural language. This work strives to understand the proficiency of LLMs in logical reasoning by offering a brief review of the latest progress in this area; with a focus on the logical reasoning datasets, tasks, and the methods adopted to utilize LLMs for reasoning. To offer a thorough analysis, we have compiled a benchmark titled LogiGLUE. This includes 24 varied datasets encompassing deductive, abductive, and inductive reasoning. We have standardized these datasets into Seq2Seq tasks to facilitate straightforward training and evaluation for future research. Utilizing LogiGLUE as a foundation, we have trained an instruction fine tuned language model, resulting in LogiT5. We study single task training, multi task training, and a chain of thought knowledge distillation fine tuning technique to assess the performance of model across the different logical reasoning categories. By this comprehensive process, we aim to shed light on the capabilities and potential pathways for enhancing logical reasoning proficiency in LLMs, paving the way for more advanced and nuanced developments in this critical field.
翻訳日:2023-11-07 20:36:23 公開日:2023-11-03
# OpenLEAF: オープンドメインのインターリーブ画像-テキスト生成と評価

OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation ( http://arxiv.org/abs/2310.07749v2 )

ライセンス: Link先を確認
Jie An, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Lijuan Wang, Jiebo Luo(参考訳) 本研究ではオープンドメインインターリーブ画像テキスト生成という課題について検討し,入力クエリに従ってインターリーブ画像と画像を生成する。 本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。 OpenLEAFでは、LLMはテキスト記述を生成し、T2Iモデルをコーディネートし、画像を生成する視覚的プロンプトを生成し、グローバルコンテキストをT2Iモデルに組み込む。 このグローバルコンテキストは、インターリーブ世代における画像の実体とスタイルを改善します。 まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。 構築した評価セットのlmm評価によれば,提案手法は質問応答,ストーリーテリング,グラフィカルストーリー書き換え,webページ/ポスト生成タスクなど,さまざまなドメインやアプリケーションに対して高品質な画像テキストコンテンツを生成することができる。 また,人間評価を用いたLMM評価手法の有効性を検証した。 提案するフレームワーク,ベンチマーク,LMM評価が,興味深いインターリーブ画像テキスト生成タスクの確立に役立つことを期待する。

This work investigates a challenging task named open-domain interleaved image-text generation, which generates interleaved texts and images following an input query. We propose a new interleaved generation framework based on prompting large-language models (LLMs) and pre-trained text-to-image (T2I) models, namely OpenLEAF. In OpenLEAF, the LLM generates textual descriptions, coordinates T2I models, creates visual prompts for generating images, and incorporates global contexts into the T2I models. This global context improves the entity and style consistencies of images in the interleaved generation. For model assessment, we first propose to use large multi-modal models (LMMs) to evaluate the entity and style consistencies of open-domain interleaved image-text sequences. According to the LMM evaluation on our constructed evaluation set, the proposed interleaved generation framework can generate high-quality image-text content for various domains and applications, such as how-to question answering, storytelling, graphical story rewriting, and webpage/poster generation tasks. Moreover, we validate the effectiveness of the proposed LMM evaluation technique with human assessment. We hope our proposed framework, benchmark, and LMM evaluation could help establish the intriguing interleaved image-text generation task.
翻訳日:2023-11-07 20:25:50 公開日:2023-11-03
# PGraphDTA:タンパク質言語モデルとコンタクトマップを用いた薬物標的相互作用予測の改善

PGraphDTA: Improving Drug Target Interaction Prediction using Protein Language Models and Contact Maps ( http://arxiv.org/abs/2310.04017v2 )

ライセンス: Link先を確認
Rakesh Bal, Yijia Xiao, Wei Wang(参考訳) 新しい薬物の開発と発見は複雑で資源集約的な取り組みであり、しばしば相当なコスト、時間投資、安全上の懸念を伴う。 薬物発見の重要な側面は、新規な薬物標的相互作用(DT)の同定である。 DTの相互作用を予測する既存の計算手法は、DTペアが相互作用するか否かを決定することを目的として、主にバイナリ分類タスクに焦点を当てている。 しかし、タンパク質-リガンド相互作用は結合親和性として知られる結合強度の連続性を示し、正確な予測のための永続的な挑戦を示す。 本研究では,薬物標的相互作用(DTI)予測における様々な手法について検討し,その性能向上のための新たな拡張を提案する。 我々のアプローチには、タンパク質言語モデル(PLM)の統合と、現在のモデルにおける誘導バイアスとしてのコンタクトマップ情報の導入が含まれる。 本研究では,提案手法が本研究で検討したベースラインモデルより優れていることを示すとともに,さらなる発展の可能性が示唆された。 この研究から得られた知見は、特定のタンパク質を標的とする潜在的な薬物の探索範囲を大幅に狭め、薬物の発見を加速すると予測している。 PGraphDTAのコードとデータはhttps://github.com/Yijia-Xiao/PgraphDTA/で公開されている。

Developing and discovering new drugs is a complex and resource-intensive endeavor that often involves substantial costs, time investment, and safety concerns. A key aspect of drug discovery involves identifying novel drug-target (DT) interactions. Existing computational methods for predicting DT interactions have primarily focused on binary classification tasks, aiming to determine whether a DT pair interacts or not. However, protein-ligand interactions exhibit a continuum of binding strengths, known as binding affinity, presenting a persistent challenge for accurate prediction. In this study, we investigate various techniques employed in Drug Target Interaction (DTI) prediction and propose novel enhancements to enhance their performance. Our approaches include the integration of Protein Language Models (PLMs) and the incorporation of Contact Map information as an inductive bias within current models. Through extensive experimentation, we demonstrate that our proposed approaches outperform the baseline models considered in this study, presenting a compelling case for further development in this direction. We anticipate that the insights gained from this work will significantly narrow the search space for potential drugs targeting specific proteins, thereby accelerating drug discovery. Code and data for PGraphDTA are available at https://github.com/Yijia-Xiao/PgraphDTA/.
翻訳日:2023-11-07 20:22:58 公開日:2023-11-03
# 協調ゲームにおける確率的フレーズの使用:人間対GPT-4

Use of probabilistic phrases in a coordination game: human versus GPT-4 ( http://arxiv.org/abs/2310.10544v2 )

ライセンス: Link先を確認
Laurence T Maloney, Maria F Dal Martello, Vivian Fei and Valerie Ma(参考訳) 英語話者は確率的フレーズを使って、出来事の確率や可能性に関する情報を伝える。 コミュニケーションは、リスナーが伝達する意味を把握できる程度に成功し、もしコミュニケーションが成功すれば、個人は不確実性に関する共有知識に基づいて行動を調整することができる。 まず,2つの異なる文脈における協調ゲームにおける23の確率的フレーズの確率とあいまいさ(精度)を推定する人間の能力を評価した。 そして、大きな言語モデルであるGPT4(OpenAI)が、人間の参加者と同じタスクを完了しました。 中央値のヒト参加者とgpt4は、良好な一致にある確率推定値を割り当てた(分散のプロポーションは .90 に近い)。 GPT4の投資状況と医療状況の双方の確率の推定値は、ヒトの参加者の見積が互いに近いか近いかのどちらかであった。 ヒトとgpt4の確率は文脈によってほとんど影響されなかった。 対照的に、人間とGPT4によるあいまいさの推定は、それほど良い一致ではなかった。

English speakers use probabilistic phrases such as likely to communicate information about the probability or likelihood of events. Communication is successful to the extent that the listener grasps what the speaker means to convey and, if communication is successful, individuals can potentially coordinate their actions based on shared knowledge about uncertainty. We first assessed human ability to estimate the probability and the ambiguity (imprecision) of twenty-three probabilistic phrases in a coordination game in two different contexts, investment advice and medical advice. We then had GPT4 (OpenAI), a Large Language Model, complete the same tasks as the human participants. We found that the median human participant and GPT4 assigned probability estimates that were in good agreement (proportions of variance accounted for close to .90). GPT4's estimates of probability both in the investment and Medical contexts were as close or closer to that of the human participants as the human participants' estimates were to one another. Estimates of probability for both the human participants and GPT4 were little affected by context. In contrast, human and GPT4 estimates of ambiguity were not in such good agreement.
翻訳日:2023-11-07 20:12:49 公開日:2023-11-03
# ディジタルアナログビデオテープのレファレンスベース復元

Reference-based Restoration of Digitized Analog Videotapes ( http://arxiv.org/abs/2310.14926v2 )

ライセンス: Link先を確認
Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini, Alberto Del Bimbo(参考訳) アナログ磁気テープは、数十年にわたって主要なビデオデータストレージデバイスであった。 アナログビデオテープに保存されたビデオは、フィルムやデジタルビデオの復元作業で見られたものと異なるテープエイジングやリーダー装置の故障によって引き起こされる独特の劣化パターンを示す。 本稿では,デジタルアナログビデオタペス(TAPE)の再作成のための参照ベースアプローチを提案する。 ゼロショットアーティファクト検出にCLIPを活用し、異なるアーティファクトを記述するテキストプロンプトを通じて、各ビデオの最もクリーンなフレームを識別する。 次に,入力フレームに最もよく似たクリーンフレームを選択し,参照として利用する。 我々は、マルチリファレンス空間特徴融合(mrsff)ブロックを介して隣り合うフレームと参照フレームの両方を利用するトランスフォーマティブベースのswin-unetネットワークを設計する。 MRSFFブロックは、各参照フレームの最も有用な部分を活用するために、クロスアテンションとアテンションプールに依存している。 実世界のビデオにおける真実の欠如に対処するため、アナログビデオテープによく見られるアーティファクトによく似ているビデオの合成データセットを作成します。 定量的および定性的な実験は,我々のアプローチが他の最先端手法と比較して有効であることを示している。 コード、モデル、合成データセットはhttps://github.com/miccunifi/TAPEで公開されている。

Analog magnetic tapes have been the main video data storage device for several decades. Videos stored on analog videotapes exhibit unique degradation patterns caused by tape aging and reader device malfunctioning that are different from those observed in film and digital video restoration tasks. In this work, we present a reference-based approach for the resToration of digitized Analog videotaPEs (TAPE). We leverage CLIP for zero-shot artifact detection to identify the cleanest frames of each video through textual prompts describing different artifacts. Then, we select the clean frames most similar to the input ones and employ them as references. We design a transformer-based Swin-UNet network that exploits both neighboring and reference frames via our Multi-Reference Spatial Feature Fusion (MRSFF) blocks. MRSFF blocks rely on cross-attention and attention pooling to take advantage of the most useful parts of each reference frame. To address the absence of ground truth in real-world videos, we create a synthetic dataset of videos exhibiting artifacts that closely resemble those commonly found in analog videotapes. Both quantitative and qualitative experiments show the effectiveness of our approach compared to other state-of-the-art methods. The code, the model, and the synthetic dataset are publicly available at https://github.com/miccunifi/TAPE.
翻訳日:2023-11-07 19:58:59 公開日:2023-11-03
# 血液検査・半構造化・非構造化患者記録を用いた多変量機械学習による炎症性関節炎の早期発見

Early detection of inflammatory arthritis to improve referrals using multimodal machine learning from blood testing, semi-structured and unstructured patient records ( http://arxiv.org/abs/2310.19967v2 )

ライセンス: Link先を確認
Bing Wang, Weizi Li, Anthony Bradlow, Antoni T.Y. Chan, Eghosa Bazuaye(参考訳) 炎症性関節炎 (IA) の早期発見は, 医療資源の制限の下で, タイムリーな治療とIA病コースの悪化を防止するために, 効率的かつ正確な病院紹介トリアージに重要である。 手動評価プロセスは、iaを早期に検出するための最も一般的なアプローチであるが、非常に労働集約的で非効率である。 一般診療(GP)から病院への紹介ごとに、大量の臨床情報を評価する必要がある。 機械学習は、繰り返しアセスメントタスクを自動化し、IAの早期検出のための意思決定支援を提供する大きな可能性を示している。 しかし、ほとんどの機械学習によるIA検出法は血液検査の結果に依存している。 しかし、実際には、血液検査データは参照時点では必ずしも利用可能ではないため、iaを早期に検出するために、半構造化データや非構造化データのようなマルチモーダルデータを活用する方法が必要である。 本研究では,IA早期検出における意思決定を支援するマルチモーダルデータを用いた融合・アンサンブル学習法と,予測の不確実性を定量化し,信頼できない予測を検出するコンフォーマル予測に基づく手法を提案する。 我々の知る限りでは,本研究はgpレファラーからのia早期検出を支援するためにマルチモーダルデータを利用する最初の試みである。

Early detection of inflammatory arthritis (IA) is critical to efficient and accurate hospital referral triage for timely treatment and preventing the deterioration of the IA disease course, especially under limited healthcare resources. The manual assessment process is the most common approach in practice for the early detection of IA, but it is extremely labor-intensive and inefficient. A large amount of clinical information needs to be assessed for every referral from General Practice (GP) to the hospitals. Machine learning shows great potential in automating repetitive assessment tasks and providing decision support for the early detection of IA. However, most machine learning-based methods for IA detection rely on blood testing results. But in practice, blood testing data is not always available at the point of referrals, so we need methods to leverage multimodal data such as semi-structured and unstructured data for early detection of IA. In this research, we present fusion and ensemble learning-based methods using multimodal data to assist decision-making in the early detection of IA, and a conformal prediction-based method to quantify the uncertainty of the prediction and detect any unreliable predictions. To the best of our knowledge, our study is the first attempt to utilize multimodal data to support the early detection of IA from GP referrals.
翻訳日:2023-11-07 19:51:16 公開日:2023-11-03
# コントラスト拡散を用いたグループコレオグラフィー

Controllable Group Choreography using Contrastive Diffusion ( http://arxiv.org/abs/2310.18986v2 )

ライセンス: Link先を確認
Nhat Le, Tuong Do, Khoa Do, Hien Nguyen, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 音楽駆動のグループ振付は大きな課題であるが、幅広い産業応用において大きな可能性を秘めている。 音楽に合わせて、同期された視覚的に魅力的なグループダンスの動きを生成する能力は、エンターテイメント、広告、バーチャルパフォーマンスなど、多くの分野の機会を開く。 しかし、最近の作品の多くは、高忠実度な長期動作を発生できないか、制御可能な経験が得られていない。 本研究では,グループ振付の一貫性と多様性を効果的に管理することにより,高品質でカスタマイズ可能なグループダンス生成の需要に対応することを目的とする。 特に, 拡散に基づく生成的手法を用いて, 入力音楽との一貫性を確保しつつ, フレキシブルなダンサー数と長期グループダンスの合成を可能にする。 最終的に,グループコントラスト拡散(GCD)戦略を導入し,ダンサーとそのグループ間の接続性を高め,分類器誘導サンプリング技術を用いて合成グループアニメーションの一貫性や多様性を制御できるようにする。 集中的な実験と評価を通じて,視覚的かつ一貫性のあるグループダンス動作の生成において,提案手法の有効性を実証する。 実験結果は,生成群コレオグラフィの全体的な品質を維持しつつ,所望の一貫性と多様性を実現することができることを示す。 ソースコードはhttps://aioz-ai.github.io/GCDで確認できる。

Music-driven group choreography poses a considerable challenge but holds significant potential for a wide range of industrial applications. The ability to generate synchronized and visually appealing group dance motions that are aligned with music opens up opportunities in many fields such as entertainment, advertising, and virtual performances. However, most of the recent works are not able to generate high-fidelity long-term motions, or fail to enable controllable experience. In this work, we aim to address the demand for high-quality and customizable group dance generation by effectively governing the consistency and diversity of group choreographies. In particular, we utilize a diffusion-based generative approach to enable the synthesis of flexible number of dancers and long-term group dances, while ensuring coherence to the input music. Ultimately, we introduce a Group Contrastive Diffusion (GCD) strategy to enhance the connection between dancers and their group, presenting the ability to control the consistency or diversity level of the synthesized group animation via the classifier-guidance sampling technique. Through intensive experiments and evaluation, we demonstrate the effectiveness of our approach in producing visually captivating and consistent group dance motions. The experimental results show the capability of our method to achieve the desired levels of consistency and diversity, while maintaining the overall quality of the generated group choreography. The source code can be found at https://aioz-ai.github.io/GCD
翻訳日:2023-11-07 19:48:05 公開日:2023-11-03
# 拡散モデルを用いた野生のシーンテキスト操作について

On Manipulating Scene Text in the Wild with Diffusion Models ( http://arxiv.org/abs/2311.00734v2 )

ライセンス: Link先を確認
Joshua Santoso, Christian Simon, Williem Pao(参考訳) 拡散モデルが画像編集に注目され、テキストから画像へのタスクで印象的な結果が得られた。 マイナス面は、安定拡散モデルの生成された画像が細部が劣化していることに気づくかもしれない。 この落とし穴は、例えばシーンテキスト編集などの情報保存を必要とする画像編集タスクに影響を与える。 望ましい結果として、モデルは、色、フォントサイズ、背景などの詳細を保存しながら、ソースイメージ上のテキストをターゲットテキストに置き換える機能を示す必要がある。 本稿では拡散モデルの可能性を活用するために,Diffusion-BasEd Scene Text Operation Network(DBEST)を提案する。 具体的には,2つの適応戦略,すなわちワンショットスタイル適応とテキスト認識指導を設計する。 実験では,提案手法を各種シーンテキストデータセットの最先端技術と比較し,各粒度に対する広範囲なアブレーション研究を行い,性能評価を行った。 また、競合する光学文字認識(OCR)精度で示されるシーンテキストを合成するための提案手法の有効性を示す。 文字レベル評価のためのCOCOテキストおよびICCAR2013データセット上で94.15%と98.12%を達成する。

Diffusion models have gained attention for image editing yielding impressive results in text-to-image tasks. On the downside, one might notice that generated images of stable diffusion models suffer from deteriorated details. This pitfall impacts image editing tasks that require information preservation e.g., scene text editing. As a desired result, the model must show the capability to replace the text on the source image to the target text while preserving the details e.g., color, font size, and background. To leverage the potential of diffusion models, in this work, we introduce Diffusion-BasEd Scene Text manipulation Network so-called DBEST. Specifically, we design two adaptation strategies, namely one-shot style adaptation and text-recognition guidance. In experiments, we thoroughly assess and compare our proposed method against state-of-the-arts on various scene text datasets, then provide extensive ablation studies for each granularity to analyze our performance gain. Also, we demonstrate the effectiveness of our proposed method to synthesize scene text indicated by competitive Optical Character Recognition (OCR) accuracy. Our method achieves 94.15% and 98.12% on COCO-text and ICDAR2013 datasets for character-level evaluation.
翻訳日:2023-11-07 19:37:36 公開日:2023-11-03
# 交通事故時予測のための二段階フレームワーク:実用的最適パイプライン内における気象・道路条件データの活用

A Bi-level Framework for Traffic Accident Duration Prediction: Leveraging Weather and Road Condition Data within a Practical Optimum Pipeline ( http://arxiv.org/abs/2311.00634v2 )

ライセンス: Link先を確認
Rafat Tabassum Sukonna, Soham Irtiza Swapnil(参考訳) イベントの確率的な性質のため、交通事故の期間を予測することは恐ろしい挑戦となる。 正確な持続時間推定は、通勤者にとって最適なルートを選択する際の実質的な利点と、不定期の混雑問題に対処するための交通管理人員をもたらす可能性がある。 本研究では,事故の重大度やテキスト記述などの事故状況情報を用いずに,事故継続時間パイプラインの実現可能性を確認するため,交通事故データベースから事故継続時間,道路状況,気象データを集めた。 事故が道路交通に与える影響が短期的・長期的かを予測するために複数の機械学習モデルを採用し、インシデントの影響の正確な持続時間を決定するバイモーダルアプローチを用いた。 平均平均誤差(mae)値26.15と13.3、rmse値32.91と28.91の他の機械学習回帰モデルよりも、lightgbm回帰モデルの方が、短期的および長期的事故継続予測において、短期的効果と長期的効果を区別した。 前節で特定した最適な分類と回帰モデルを用いて、プロセス全体を組み込むためにエンドツーエンドのパイプラインを構築します。 分離されたアプローチと組み合わせたアプローチの結果は,交通事故時間の予測に静的な特徴のみを用いることの適用性を示す,以前の研究と同等であった。 SHAP値解析により, 気象条件, 風速, 風速が, 事故の期間を決定する上で最も重要な要因となった。

Due to the stochastic nature of events, predicting the duration of a traffic incident presents a formidable challenge. Accurate duration estimation can result in substantial advantages for commuters in selecting optimal routes and for traffic management personnel in addressing non-recurring congestion issues. In this study, we gathered accident duration, road conditions, and meteorological data from a database of traffic accidents to check the feasibility of a traffic accident duration pipeline without accident contextual information data like accident severity and textual description. Multiple machine learning models were employed to predict whether an accident's impact on road traffic would be of a short-term or long-term nature, and then utilizing a bimodal approach the precise duration of the incident's effect was determined. Our binary classification random forest model distinguished between short-term and long-term effects with an 83% accuracy rate, while the LightGBM regression model outperformed other machine learning regression models with Mean Average Error (MAE) values of 26.15 and 13.3 and RMSE values of 32.91 and 28.91 for short and long-term accident duration prediction, respectively. Using the optimal classification and regression model identified in the preceding section, we then construct an end-to-end pipeline to incorporate the entire process. The results of both separate and combined approaches were comparable with previous works, which shows the applicability of only using static features for predicting traffic accident duration. The SHAP value analysis identified weather conditions, wind chill and wind speed as the most influential factors in determining the duration of an accident.
翻訳日:2023-11-07 19:37:18 公開日:2023-11-03
# 任意不確かさ入力に対する効率的なロバストベイズ最適化

Efficient Robust Bayesian Optimization for Arbitrary Uncertain Inputs ( http://arxiv.org/abs/2310.20145v2 )

ライセンス: Link先を確認
Lin Yang, Junlong Lyu, Wenlong Lyu, and Zhitang Chen(参考訳) ベイズ最適化 (bayesian optimization, bo) は、様々なアプリケーションで広く使われているサンプル効率の最適化アルゴリズムである。 いくつかの難解なBOタスクにおいて、入力の不確実性は、加工誤差、実行ノイズ、文脈変動など、最適化プロセスの必然的ランダム性によって生じる。 この不確実性は、評価前に意図した値から入力を逸脱させ、最終結果において著しい性能変動を引き起こす。 本稿では,任意の入力の不確実性下で一貫して機能するロバスト最適アルゴリズムを効果的に特定できる,新しいロバストベイズ最適化アルゴリズムairboを提案する。 提案手法は,最大平均離散度(MMD)でガウス過程を有効化することにより任意の分布の不確実な入力を直接モデル化し,Nystrom近似による後部推論を高速化する。 MMD推定誤差と合成関数および実問題に関する広範な実験により,本手法が様々な入力不確実性に対処し,最先端の性能を実現することを示す。

Bayesian Optimization (BO) is a sample-efficient optimization algorithm widely employed across various applications. In some challenging BO tasks, input uncertainty arises due to the inevitable randomness in the optimization process, such as machining errors, execution noise, or contextual variability. This uncertainty deviates the input from the intended value before evaluation, resulting in significant performance fluctuations in the final result. In this paper, we introduce a novel robust Bayesian Optimization algorithm, AIRBO, which can effectively identify a robust optimum that performs consistently well under arbitrary input uncertainty. Our method directly models the uncertain inputs of arbitrary distributions by empowering the Gaussian Process with the Maximum Mean Discrepancy (MMD) and further accelerates the posterior inference via Nystrom approximation. Rigorous theoretical regret bound is established under MMD estimation error and extensive experiments on synthetic functions and real problems demonstrate that our approach can handle various input uncertainties and achieve state-of-the-art performance.
翻訳日:2023-11-07 19:33:28 公開日:2023-11-03
# 電力ネットワークトポロジー制御のための階層強化学習

Hierarchical Reinforcement Learning for Power Network Topology Control ( http://arxiv.org/abs/2311.02129v1 )

ライセンス: Link先を確認
Blazej Manczak and Jan Viebahn and Herke van Hoof(参考訳) 高次元行動空間での学習は、実世界のシステムに強化学習(RL)を適用する上で重要な課題である。 本稿では,RL法による電力ネットワーク制御の可能性について検討する。 電力網は制御が複雑な重要なインフラである。 特に、アクション空間の組合せの性質は、従来のオプティマイザと学習コントローラの両方に課題をもたらす。 階層的強化学習(HRL)はこの課題に対処するための一つのアプローチである。 より正確には、電力ネットワークトポロジ制御のためのHRLフレームワークを提案する。 HRLフレームワークは3つのレベルのアクション抽象化で構成されている。 最高レベルでは、電力網運用の全体的な長期的タスク、すなわち、電力グリッド状態を常にセキュリティ上の制約内に保持し、時間的に拡張された2つのアクション、すなわち「何もしない」と「トポロジーの変更を提案する」に分解する。 中間レベルでは、アクション空間はすべての制御可能な変電所からなる。 最後に、最低レベルでは、アクション空間は選択されたサブステーションのすべての構成からなる。 このHRLフレームワークを利用することで、IEEE 14バスネットワークのために複数の階層的なパワーネットワークエージェントを訓練する。 最高レベルでは、純粋なルールに基づくポリシーが依然としてすべてのエージェントに選択されているのに対して、中間レベルでは、ポリシーは異なる最先端のrlアルゴリズムを使って訓練される。 最も低いレベルでは、rlアルゴリズムまたはgreedyアルゴリズムが使用される。 異なる3レベルエージェントの性能は標準ベースライン(RLまたはgreedy)アプローチと比較される。 重要な発見は、RLを利用する3レベルエージェントが中間レベルと下位レベルの両方で、最も難しいタスクで他のエージェントよりも優れていることである。 私たちのコードは公開されています。

Learning in high-dimensional action spaces is a key challenge in applying reinforcement learning (RL) to real-world systems. In this paper, we study the possibility of controlling power networks using RL methods. Power networks are critical infrastructures that are complex to control. In particular, the combinatorial nature of the action space poses a challenge to both conventional optimizers and learned controllers. Hierarchical reinforcement learning (HRL) represents one approach to address this challenge. More precisely, a HRL framework for power network topology control is proposed. The HRL framework consists of three levels of action abstraction. At the highest level, there is the overall long-term task of power network operation, namely, keeping the power grid state within security constraints at all times, which is decomposed into two temporally extended actions: 'do nothing' versus 'propose a topology change'. At the intermediate level, the action space consists of all controllable substations. Finally, at the lowest level, the action space consists of all configurations of the chosen substation. By employing this HRL framework, several hierarchical power network agents are trained for the IEEE 14-bus network. Whereas at the highest level a purely rule-based policy is still chosen for all agents in this study, at the intermediate level the policy is trained using different state-of-the-art RL algorithms. At the lowest level, either an RL algorithm or a greedy algorithm is used. The performance of the different 3-level agents is compared with standard baseline (RL or greedy) approaches. A key finding is that the 3-level agent that employs RL both at the intermediate and the lowest level outperforms all other agents on the most difficult task. Our code is publicly available.
翻訳日:2023-11-07 19:26:51 公開日:2023-11-03
# ディープグラフニューラルネットワークの体系的レビュー : バイオインフォマティクスにおける課題,分類,アーキテクチャ,応用と潜在的有用性

A Systematic Review of Deep Graph Neural Networks: Challenges, Classification, Architectures, Applications & Potential Utility in Bioinformatics ( http://arxiv.org/abs/2311.02127v1 )

ライセンス: Link先を確認
Adil Mudasir Malla, Asif Ali Banka(参考訳) 近年,画像処理や音声・映像解析から自然言語理解に至るまで,ディープラーニングの課題が深層学習に転換されている。 これら全てのシナリオのデータ内容はユークリッド空間で表現される。 しかし、アプリケーションデータのかなりの量は非ユークリッド空間で構成され、複雑な相互作用やオブジェクト相互依存を扱うグラフとして表現される。 物理システムをモデル化し、分子シグネチャを学習し、タンパク質の相互作用を識別し、病気を予測するには、グラフデータから適応可能なモデルを利用する必要がある。 人工神経モデルとして定義されたグラフニューラルネットワーク(GNN)は、グラフ依存を表現するためにグラフノード間のメッセージ送信を使用し、主に非ユークリッド領域で使用される。 Graph Recurrent Networks (GRN)、Graph Auto Encoder (GAE)、Graph Convolution Networks (GCN)、Graph Adversarial Methods & Graph Reinforcement LearningのようなGNNの多様性は、生物情報学の分野において、生物ネットワークデータの迅速な収集の結果、近年、幅広いタスクにおいて画期的な生産性を示している。 既存のすべてのGNNモデルを提示することとは別に、すべての種類のGNNの変種を数学的解析および比較することがこの調査で強調されている。 グラフニューラルネットワークは、バイオインフォマティクスに焦点をあて、様々な分野における潜在的な実世界の応用について研究されている。 さらに、グラフニューラルネットワークモデルの評価や、オープンソースのコードとベンチマークデータセットへのアクセスのためのリソースも含まれている。 最終的に、この急速に進化する領域における将来の研究のための(7つの)提案を提示します。 GNNは、生物情報学研究における幅広い生物学的課題を解決するための優れたツールとなる可能性がある。

In recent years, tasks of machine learning ranging from image processing & audio/video analysis to natural language understanding have been transformed by deep learning. The data content in all these scenarios are expressed via Euclidean space. However, a considerable amount of application data is structured in non-Euclidean space and is expressed as graphs, e.g. dealing with complicated interactions & object interdependencies. Modelling physical systems, learning molecular signatures, identifying protein interactions and predicting diseases involve utilising a model that can adapt from graph data. Graph neural networks (GNNs), specified as artificial-neural models, employ message transmission between graph nodes to represent graph dependencies and are primarily used in the non-Euclidean domain. Variants of GNN like Graph Recurrent Networks (GRN), Graph Auto Encoder (GAE), Graph Convolution Networks (GCN), Graph Adversarial Methods & Graph Reinforcement learning have exhibited breakthrough productivity on a wide range of tasks, especially in the field of bioinformatics, in recent years as a result of the rapid collection of biological network data. Apart from presenting all existing GNN models, mathematical analysis and comparison of the variants of all types of GNN have been highlighted in this survey. Graph neural networks are investigated for their potential real-world applications in various fields, focusing on Bioinformatics. Furthermore, resources for evaluating graph neural network models and accessing open-source code & benchmark data sets are included. Ultimately, we provide some (seven) proposals for future research in this rapidly evolving domain. GNNs have the potential to be an excellent tool for solving a wide range of biological challenges in bioinformatics research, as they are best represented as connected complex graphs.
翻訳日:2023-11-07 19:26:11 公開日:2023-11-03
# PILL: アダプタエキスパートとアテンションゲートを備えたLDMにプラグイン

PILL: Plug Into LLM with Adapter Expert and Attention Gate ( http://arxiv.org/abs/2311.02126v1 )

ライセンス: Link先を確認
Fangyuan Zhang, Tingting Liang, Zhengyuan Wu, Yuyu Yin(参考訳) 強力な大規模言語モデル(LLM)の効果的な指示に従う能力により、コミュニティには人間を支援するアシスタントが増えている。 近年、視覚言語モデル(VLM)の開発が進み、LLMの能力を拡大し、より多様な命令を実行できるようになった。 しかし、モデルが音声やビデオなどの追加的なモダリティを伴うタスクを扱う必要があることは予測できる。 これは混合モダリティの複雑さを扱う上で特に顕著な課題である。 そこで我々は,PILL: Plug Into LLMと呼ばれる新しいアーキテクチャを,アダプタの専門家とアテンションゲートで導入し,これらの複雑なモダリティを分離し,効率的な微調整を実現する。 まず、Mixture-of-Modality-Adapter-Expertを使って異なるモードを独立に処理し、元のモデルの表現能力を保ちながら下流タスクへの適応性を向上する。 第二に、モダリティ・アテンション・ゲーティングを導入することにより、全体表現へのモダリティトークンの寄与を適応的に制御できる。 さらに,その学習能力と表現能力を向上させるために,アダプタの改良も行っています。 実験の結果,本手法はモダリティ融合の他の主流手法と比較して競合性能を示すことがわかった。 私たちの研究に興味を持つ研究者には、https://github.com/DsaltYfish/PILL.comでコードとモデルへの無償アクセスを提供しています。

Due to the remarkable capabilities of powerful Large Language Models (LLMs) in effectively following instructions, there has been a growing number of assistants in the community to assist humans. Recently, significant progress has been made in the development of Vision Language Models (VLMs), expanding the capabilities of LLMs and enabling them to execute more diverse instructions. However, it is foreseeable that models will likely need to handle tasks involving additional modalities such as speech, video, and others. This poses a particularly prominent challenge of dealing with the complexity of mixed modalities. To address this, we introduce a novel architecture called PILL: Plug Into LLM with adapter expert and attention gate to better decouple these complex modalities and leverage efficient fine-tuning. We introduce two modules: Firstly, utilizing Mixture-of-Modality-Adapter-Expert to independently handle different modalities, enabling better adaptation to downstream tasks while preserving the expressive capability of the original model. Secondly, by introducing Modality-Attention-Gating, which enables adaptive control of the contribution of modality tokens to the overall representation. In addition, we have made improvements to the Adapter to enhance its learning and expressive capabilities. Experimental results demonstrate that our approach exhibits competitive performance compared to other mainstream methods for modality fusion. For researchers interested in our work, we provide free access to the code and models at https://github.com/DsaltYfish/PILL.
翻訳日:2023-11-07 19:25:11 公開日:2023-11-03
# 一般価値関数を使ってドメイン支援在庫管理ポリシーを学ぶ

Using General Value Functions to Learn Domain-Backed Inventory Management Policies ( http://arxiv.org/abs/2311.02125v1 )

ライセンス: Link先を確認
Durgesh Kalwar, Omkar Shelke, Harshad Khadilkar(参考訳) 在庫管理の問題は、店内における広範囲の製品の可用性や無駄といった相反する目標のバランスをとることを目的としている。 本稿では、一般価値関数(GVF)を利用してドメイン支援在庫補充政策を導出する強化学習(RL)手法を提案する。 在庫補充決定は、不確定な需要と集約的(クロスプロダクト)制約の存在により困難である逐次的意思決定問題としてモデル化される。 既存の文献では、GVFは主に補助的なタスク学習に使われてきた。 この能力を用いて,ストックアウト確率の予測やウェーステージ量などのドメインクリティカルな特性についてgvfsを訓練する。 この領域の専門知識をより効果的に探索するために、我々はRLエージェントを訓練し、大量の製品(報告された実験で最大6000個まで)の在庫補充量を計算する。 さらに,gvf予測は,rlエージェントが提案する決定に対するドメインバックの洞察を付加的に提供できることを示す。 最後に、環境ダイナミクスが完全に移行されているため、トレーニングされたGVFは、非常に異なるビジネス目標(例えば、プロモーション期間の開始や新しい顧客環境への展開による)への迅速な適応に使用することができる。

We consider the inventory management problem, where the goal is to balance conflicting objectives such as availability and wastage of a large range of products in a store. We propose a reinforcement learning (RL) approach that utilises General Value Functions (GVFs) to derive domain-backed inventory replenishment policies. The inventory replenishment decisions are modelled as a sequential decision making problem, which is challenging due to uncertain demand and the existence of aggregate (cross-product) constraints. In existing literature, GVFs have primarily been used for auxiliary task learning. We use this capability to train GVFs on domain-critical characteristics such as prediction of stock-out probability and wastage quantity. Using this domain expertise for more effective exploration, we train an RL agent to compute the inventory replenishment quantities for a large range of products (up to 6000 in the reported experiments), which share aggregate constraints such as the total weight/volume per delivery. Additionally, we show that the GVF predictions can be used to provide additional domain-backed insights into the decisions proposed by the RL agent. Finally, since the environment dynamics are fully transferred, the trained GVFs can be used for faster adaptation to vastly different business objectives (for example, due to the start of a promotional period or due to deployment in a new customer environment).
翻訳日:2023-11-07 19:24:39 公開日:2023-11-03
# Sliced Denoising:物理インフォームド分子プレトライニング法

Sliced Denoising: A Physics-Informed Molecular Pre-Training Method ( http://arxiv.org/abs/2311.02124v1 )

ライセンス: Link先を確認
Yuyan Ni, Shikun Feng, Wei-Ying Ma, Zhi-Ming Ma, Yanyan Lan(参考訳) 分子前訓練は創薬を増強する大きな可能性を示したが、現在の方法における物理的な解釈の欠如は、学習された表現が観察されたデータの基本的な説明因子を真に捉えているかどうかの懸念を生じさせ、最終的には一般化と堅牢性が制限される。 消音法は物理的解釈を提供するが、その精度はしばしばアドホックノイズ設計によって損なわれ、不正確な学習力場に繋がる。 この制限に対処するために,古典的な分子内ポテンシャル理論に基づくスライスデノイング(SliDe)と呼ばれる分子事前学習法を提案する。 SliDeは、結合の長さ、角度、ねじれ角を乱す新しいノイズ戦略を利用して、コンフォーメーションよりも優れたサンプリングを実現する。 さらに、力場を推定するのに必須であるヤコビ行列の計算に高価な計算を回避できるランダムスライシングアプローチを導入する。 物理的原理に合わせることで、slideは現在の最先端の分別法と比較して推定力場の精度が42\%向上し、様々な分子特性予測タスクにおける従来のベースラインを上回っている。

While molecular pre-training has shown great potential in enhancing drug discovery, the lack of a solid physical interpretation in current methods raises concerns about whether the learned representation truly captures the underlying explanatory factors in observed data, ultimately resulting in limited generalization and robustness. Although denoising methods offer a physical interpretation, their accuracy is often compromised by ad-hoc noise design, leading to inaccurate learned force fields. To address this limitation, this paper proposes a new method for molecular pre-training, called sliced denoising (SliDe), which is based on the classical mechanical intramolecular potential theory. SliDe utilizes a novel noise strategy that perturbs bond lengths, angles, and torsion angles to achieve better sampling over conformations. Additionally, it introduces a random slicing approach that circumvents the computationally expensive calculation of the Jacobian matrix, which is otherwise essential for estimating the force field. By aligning with physical principles, SliDe shows a 42\% improvement in the accuracy of estimated force fields compared to current state-of-the-art denoising methods, and thus outperforms traditional baselines on various molecular property prediction tasks.
翻訳日:2023-11-07 19:24:02 公開日:2023-11-03
# RigLSTM: 一般化可能なシーケンス学習のためのリカレントインディペンデントグリッドLSTM

RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence Learning ( http://arxiv.org/abs/2311.02123v1 )

ライセンス: Link先を確認
Ziyu Wang, Wenhao Jiang, Zixuan Zhang, Wei Tang, Junchi Yan(参考訳) 実世界の逐次過程は、しばしば特定の形で相互作用する単純なサブシステムの組み合わせを持つ。 このようなモジュール構造を学ぶことで、環境変化に対する堅牢性が向上する。 本稿では,対象タスクの基盤となるモジュール構造を利用するために,相互に協調する独立したlstmセル群からなるリカレント独立グリッドlstm(riglstm)を提案する。 本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, トレーニングと評価の異なるタスクに対する最近のGrid LSTMに基づいて, より優れた一般化を実現する。 具体的には、各時間ステップで少数の細胞のみが活性化され、活性化された細胞は関連する入力と通信する細胞を選択する。 1つの時間ステップの終わりに、最後の時間ステップと現在の時間ステップからの入力と隠れ状態の関連性を考慮して、活性化された細胞の隠れ状態を更新する。 テスト環境に変化がある場合、より優れた一般化能力を示すために、多種多様な逐次モデリングタスクに関する広範囲な実験を行った。 ソースコードは \url{https://github.com/ziyuwang/rig-lstm} で入手できる。

Sequential processes in real-world often carry a combination of simple subsystems that interact with each other in certain forms. Learning such a modular structure can often improve the robustness against environmental changes. In this paper, we propose recurrent independent Grid LSTM (RigLSTM), composed of a group of independent LSTM cells that cooperate with each other, for exploiting the underlying modular structure of the target task. Our model adopts cell selection, input feature selection, hidden state selection, and soft state updating to achieve a better generalization ability on the basis of the recent Grid LSTM for the tasks where some factors differ between training and evaluation. Specifically, at each time step, only a fraction of cells are activated, and the activated cells select relevant inputs and cells to communicate with. At the end of one time step, the hidden states of the activated cells are updated by considering the relevance between the inputs and the hidden states from the last and current time steps. Extensive experiments on diversified sequential modeling tasks are conducted to show the superior generalization ability when there exist changes in the testing environment. Source code is available at \url{https://github.com/ziyuwwang/rig-lstm}.
翻訳日:2023-11-07 19:23:36 公開日:2023-11-03
# スタイルをなくしたの? テキスト・トゥ・アウトフィット検索のための意味レベルアプローチによるナビゲーション

Lost Your Style? Navigating with Semantic-Level Approach for Text-to-Outfit Retrieval ( http://arxiv.org/abs/2311.02122v1 )

ライセンス: Link先を確認
Junkyu Jang, Eugene Hwang, Sung-Hyuk Park(参考訳) ファッションスタイリストは歴史的に、消費者の欲望と完璧な衣装の間のギャップを橋渡しし、色、パターン、素材の複雑な組み合わせを含んでいる。 近年,ファッションレコメンデーションシステムの進歩により,服飾互換性の予測や補完的なアイテム検索が進んでいるが,これらのシステムは事前に選択された顧客選択に大きく依存している。 そこで,ファッションレコメンデーションに対する画期的なアプローチとして,ユーザによるテキスト記述のみに基づく完全な衣装セットを生成するテキスト・ツー・アウトフィット検索タスクを提案する。 本モデルでは,テキスト入力に基づいて,各レベルが段階的にデータを集約し,一貫性のある服飾レコメンデーションを形成する3つのセマンティックレベル,スタイル,衣装を考案した。 ここでは,コントラスト型言語イメージプリトレーニングモデルと類似した戦略を用いて,衣装セット内の複雑な行列を扱う。 メリーランド・ポリボアとポリボア・アチュームのデータセットを用いて,本手法は,テキスト・ビデオ検索タスクにおける最先端モデルを大幅に上回り,ファッションレコメンデーション領域においてその効果を確固たるものにした。 この研究はファッションレコメンデーションシステムの新たな側面を開拓するだけでなく、テキスト記述による個人のスタイル選好の本質を捉えた手法も導入している。

Fashion stylists have historically bridged the gap between consumers' desires and perfect outfits, which involve intricate combinations of colors, patterns, and materials. Although recent advancements in fashion recommendation systems have made strides in outfit compatibility prediction and complementary item retrieval, these systems rely heavily on pre-selected customer choices. Therefore, we introduce a groundbreaking approach to fashion recommendations: text-to-outfit retrieval task that generates a complete outfit set based solely on textual descriptions given by users. Our model is devised at three semantic levels-item, style, and outfit-where each level progressively aggregates data to form a coherent outfit recommendation based on textual input. Here, we leverage strategies similar to those in the contrastive language-image pretraining model to address the intricate-style matrix within the outfit sets. Using the Maryland Polyvore and Polyvore Outfit datasets, our approach significantly outperformed state-of-the-art models in text-video retrieval tasks, solidifying its effectiveness in the fashion recommendation domain. This research not only pioneers a new facet of fashion recommendation systems, but also introduces a method that captures the essence of individual style preferences through textual descriptions.
翻訳日:2023-11-07 19:23:16 公開日:2023-11-03
# ストリートビュー画像を用いた空中画像からの単色高さ推定

Enhancing Monocular Height Estimation from Aerial Images with Street-view Images ( http://arxiv.org/abs/2311.02121v1 )

ライセンス: Link先を確認
Xiaomou Hou, Wanshui Gan and Naoto Yokoya(参考訳) 単眼の空中画像からの正確な高さ推定は、本質的に不適切な性質のため重要な課題である。 この制限は、単眼画像で訓練する際にモデルに十分な幾何学的制約がないことに根ざしている。 単眼画像データを補う追加の幾何学的情報がないと、モデルが信頼できる推定を提供する能力が損なわれる。 本稿では,街路ビュー画像を取り込んだ単眼高さ推定手法を提案する。 我々の洞察では、ストリートビュー画像は、一様高さ推定の性能を高めるための幾何学的制約として、そのシーンの視点とリッチな構造的詳細を提供する。 具体的には,ストリートビュー画像からの幾何制約による暗黙的な3次元シーン表現,密度場を最適化し,高さ推定の精度とロバスト性を向上させることを目的とする。 提案手法の有効性を実証し,ベースラインを上回り,精度と構造的一貫性の面で大幅に改善した。

Accurate height estimation from monocular aerial imagery presents a significant challenge due to its inherently ill-posed nature. This limitation is rooted in the absence of adequate geometric constraints available to the model when training with monocular imagery. Without additional geometric information to supplement the monocular image data, the model's ability to provide reliable estimations is compromised. In this paper, we propose a method that enhances monocular height estimation by incorporating street-view images. Our insight is that street-view images provide a distinct viewing perspective and rich structural details of the scene, serving as geometric constraints to enhance the performance of monocular height estimation. Specifically, we aim to optimize an implicit 3D scene representation, density field, with geometry constraints from street-view images, thereby improving the accuracy and robustness of height estimation. Our experimental results demonstrate the effectiveness of our proposed method, outperforming the baseline and offering significant improvements in terms of accuracy and structural consistency.
翻訳日:2023-11-07 19:22:52 公開日:2023-11-03
# スイッチング環境における安全なシーケンス最適化

Safe Sequential Optimization for Switching Environments ( http://arxiv.org/abs/2311.02119v1 )

ライセンス: Link先を確認
Durgesh Kalwar and Vineeth B. S(参考訳) 時間とともに切り替わる未知の時間変動関数を最大化するために逐次意思決定エージェントを設計する問題を考える。 各ステップにおいて、エージェントは、エージェントが決定するポイントにおいて、関数の値の観察を受ける。 その観察は騒音で損なわれるかもしれない。 エージェントはまた、高い確率で安全な決定を行うこと、すなわち選択された点が閾値よりも大きい関数値を持つように制約される。 そこで我々はAdaptive-SafeOptというポリシーを提案し,その性能をシミュレーションにより評価する。 このポリシーは、安全な逐次最適化問題に対するベイズ最適化と変更点検出を取り入れている。 スイッチング変更に適応する上での大きな課題は、変更点が検出された場合の安全な決定を識別し、局所的最適への誘引を防止することである。

We consider the problem of designing a sequential decision making agent to maximize an unknown time-varying function which switches with time. At each step, the agent receives an observation of the function's value at a point decided by the agent. The observation could be corrupted by noise. The agent is also constrained to take safe decisions with high probability, i.e., the chosen points should have a function value greater than a threshold. For this switching environment, we propose a policy called Adaptive-SafeOpt and evaluate its performance via simulations. The policy incorporates Bayesian optimization and change point detection for the safe sequential optimization problem. We observe that a major challenge in adapting to the switching change is to identify safe decisions when the change point is detected and prevent attraction to local optima.
翻訳日:2023-11-07 19:22:37 公開日:2023-11-03
# 大規模分散グラフのための協調ネットワーク学習

Cooperative Network Learning for Large-Scale and Decentralized Graphs ( http://arxiv.org/abs/2311.02117v1 )

ライセンス: Link先を確認
Qiang Wu, Yiming Huang, Yujie Zeng, Yujie Teng, Fang Zhou, Linyuan L\"u(参考訳) グラフ研究(グラフとして表される相互接続されたデータポイントの体系的研究)は、ネットワークシステム内の複雑な関係を捉える上で重要な役割を果たす。 しかし、グラフのスケールアップに伴って、異なるデータ所有機関間のデータセキュリティに関する懸念が生まれ、情報共有が妨げられ、最終的にはグラフデータの利用が妨げられる。 したがって,グラフ機関間の相互信頼機構の確立は,グラフの潜在能力を最大限に活用するために重要である。 本稿では,協調ネットワーク学習(CNL)フレームワークを導入し,グラフタスクに対するセキュアなグラフ計算を実現する。 基本的に、このcnlフレームワークは、gnnコンピューティングのローカルおよびグローバルな観点と、すべての参加機関を固定された中央コーディネータなしでグローバルグラフとして仮想接続することにより、機関のための分散データを統合する。 緊急間コンピューティングは、同型暗号化やセキュアトランスミッションなど、我々のフレームワークに固有の様々な技術によって保護されている。 さらに、各機関は、現地またはグローバルの観点から様々なグラフ学習モデルを設計または採用する公正な権利を有する。 これにより、CNLは局所グラフとグローバルグラフから推定される分散グラフに基づいてGNNモデルを協調的に訓練することができる。 感染動態予測と従来のグラフタスク(ノード分類とリンク予測)の実験は、我々のCNLアーキテクチャが個々のサイトで開発された最先端のGNNよりも優れており、ネットワークアプリケーションのための効果的でパーソナライズされたモデルを構築するために信頼性があり、公正で、セキュアで、プライバシ保護され、グローバルな視点を提供できることを示した。 このフレームワークがグラフ関連研究におけるプライバシの懸念に対処し、分散グラフデータ構造を統合することで、ネットワーク研究コミュニティの協力とイノベーションの恩恵を受けることを願っています。

Graph research, the systematic study of interconnected data points represented as graphs, plays a vital role in capturing intricate relationships within networked systems. However, in the real world, as graphs scale up, concerns about data security among different data-owning agencies arise, hindering information sharing and, ultimately, the utilization of graph data. Therefore, establishing a mutual trust mechanism among graph agencies is crucial for unlocking the full potential of graphs. Here, we introduce a Cooperative Network Learning (CNL) framework to ensure secure graph computing for various graph tasks. Essentially, this CNL framework unifies the local and global perspectives of GNN computing with distributed data for an agency by virtually connecting all participating agencies as a global graph without a fixed central coordinator. Inter-agency computing is protected by various technologies inherent in our framework, including homomorphic encryption and secure transmission. Moreover, each agency has a fair right to design or employ various graph learning models from its local or global perspective. Thus, CNL can collaboratively train GNN models based on decentralized graphs inferred from local and global graphs. Experiments on contagion dynamics prediction and traditional graph tasks (i.e., node classification and link prediction) demonstrate that our CNL architecture outperforms state-of-the-art GNNs developed at individual sites, revealing that CNL can provide a reliable, fair, secure, privacy-preserving, and global perspective to build effective and personalized models for network applications. We hope this framework will address privacy concerns in graph-related research and integrate decentralized graph data structures to benefit the network research community in cooperation and innovation.
翻訳日:2023-11-07 19:22:23 公開日:2023-11-03
# グラフニューラルネットワークのためのPGMを用いたレジストラベルノイズ

Resist Label Noise with PGM for Graph Neural Networks ( http://arxiv.org/abs/2311.02116v1 )

ライセンス: Link先を確認
Qingqing Ge, Jianxiang Yu, Zeyuan Zhao and Xiang Li(参考訳) グラフ摂動とアタックのために頑健なグラフニューラルネットワーク(GNN)が広く研究されているが、ラベルノイズに対するニューラルネットワークはそれほど注目されていない。 既存の手法の多くはノイズラベルを修正するためにラベルの滑らかさの仮定に大きく依存しており、これは異種グラフのパフォーマンスに悪影響を及ぼす。 さらに、一般的には高いノイズレートのシナリオでは性能が劣る。 本稿では,これらの問題に対処するために,新しい確率的グラフィカルモデル (pgm) ベースのフレームワーク lnp を提案する。 ノイズの多いラベルセットとクリーンなラベルセットを考えると、私たちの目標はクリーンセット内のラベルの可能性の最大化です。 まず,ベイズネットワーク内でのみグラフに基づくクリーンラベルを生成するlpp-v1を提案する。 ノイズラベルセットにおけるクリーンラベルの情報をさらに活用するために,ベイジアンネットワークにノイズラベルセットを組み込んでクリーンラベルを生成するLNP-v2を提案する。 生成プロセスは、ラベルのないノードのラベルを予測するのに使うことができる。 我々は、様々なノイズタイプとレート、および異なる異性体を持つグラフに対するLNPの堅牢性を示すための広範な実験を行う。 特に,LNPは高騒音環境下での性能向上につながる可能性が示唆された。

While robust graph neural networks (GNNs) have been widely studied for graph perturbation and attack, those for label noise have received significantly less attention. Most existing methods heavily rely on the label smoothness assumption to correct noisy labels, which adversely affects their performance on heterophilous graphs. Further, they generally perform poorly in high noise-rate scenarios. To address these problems, in this paper, we propose a novel probabilistic graphical model (PGM) based framework LNP. Given a noisy label set and a clean label set, our goal is to maximize the likelihood of labels in the clean set. We first present LNP-v1, which generates clean labels based on graphs only in the Bayesian network. To further leverage the information of clean labels in the noisy label set, we put forward LNP-v2, which incorporates the noisy label set into the Bayesian network to generate clean labels. The generative process can then be used to predict labels for unlabeled nodes. We conduct extensive experiments to show the robustness of LNP on varying noise types and rates, and also on graphs with different heterophilies. In particular, we show that LNP can lead to inspiring performance in high noise-rate situations.
翻訳日:2023-11-07 19:21:49 公開日:2023-11-03
# 医療画像AIにおけるバイアスの客観的・体系的評価に向けて

Towards objective and systematic evaluation of bias in medical imaging AI ( http://arxiv.org/abs/2311.02115v1 )

ライセンス: Link先を確認
Emma A.M. Stanley, Raissa Souza, Anthony Winder, Vedant Gulve, Kimberly Amador, Matthias Wilms, Nils D. Forkert(参考訳) 臨床タスクのために医療画像を用いて訓練された人工知能(AI)モデルは、サブグループ間のパフォーマンスの格差の形でバイアスを示すことが多い。 実世界の医療画像データのすべてのバイアス源が容易に識別できるわけではないので、それらのバイアスがどのようにモデルにエンコードされているか、そして、パフォーマンス格差を緩和するバイアス緩和手法がいかに有能であるかを包括的に評価することは困難である。 本稿では,医療画像におけるバイアスがAIモデルに与える影響を体系的かつ客観的に調査する新しい分析フレームワークを提案する。 医用画像AIの偏りを既知の疾患効果とバイアス源を有する合成磁気共鳴画像を生成するツールを用いて評価するために, サイリコ試験において制御を行うためのこのフレームワークを開発し, 試験した。 3つの反事実バイアスシナリオを用いて、畳み込みニューラルネットワーク(CNN)分類器に対するシミュレーションバイアス効果の影響と、3つのバイアス緩和戦略の有効性を測定する。 解析の結果,CNNが合成データセット上で訓練された場合,シミュレーションバイアスがサブグループ性能の相違をもたらすことがわかった。 さらに、reweighingは、この設定において最も成功したバイアス緩和戦略と同定され、このフレームワークを用いたモデルにおけるバイアスの顕在化を調査するのに、説明可能なaiメソッドがどのように役立つかを実証した。 医療画像データセットに多くの、しばしば未知のバイアス源が存在することを考えると、公正なAIモデルの開発は大きな課題である。 本研究では,強固で責任のある臨床aiの開発を支援する深層学習パイプラインに対するバイアスと緩和戦略の影響を客観的に検討する新しい手法を提案する。

Artificial intelligence (AI) models trained using medical images for clinical tasks often exhibit bias in the form of disparities in performance between subgroups. Since not all sources of biases in real-world medical imaging data are easily identifiable, it is challenging to comprehensively assess how those biases are encoded in models, and how capable bias mitigation methods are at ameliorating performance disparities. In this article, we introduce a novel analysis framework for systematically and objectively investigating the impact of biases in medical images on AI models. We developed and tested this framework for conducting controlled in silico trials to assess bias in medical imaging AI using a tool for generating synthetic magnetic resonance images with known disease effects and sources of bias. The feasibility is showcased by using three counterfactual bias scenarios to measure the impact of simulated bias effects on a convolutional neural network (CNN) classifier and the efficacy of three bias mitigation strategies. The analysis revealed that the simulated biases resulted in expected subgroup performance disparities when the CNN was trained on the synthetic datasets. Moreover, reweighing was identified as the most successful bias mitigation strategy for this setup, and we demonstrated how explainable AI methods can aid in investigating the manifestation of bias in the model using this framework. Developing fair AI models is a considerable challenge given that many and often unknown sources of biases can be present in medical imaging datasets. In this work, we present a novel methodology to objectively study the impact of biases and mitigation strategies on deep learning pipelines, which can support the development of clinical AI that is robust and responsible.
翻訳日:2023-11-07 19:21:29 公開日:2023-11-03
# 画像テキスト検索のためのクロスモーダル固有フラグメント強化ネットワーク

Cross-modal Prominent Fragments Enhancement Aligning Network for Image-text Retrieval ( http://arxiv.org/abs/2311.02183v1 )

ライセンス: Link先を確認
Yang Zhang(参考訳) 画像テキスト検索は、画像とテキストの類似度を測定することを目的としているマルチメディアデータの指数関数的な成長により、コンピュータビジョンの分野で広く研究されているトピックである。 しかし,既存の検索手法の多くは,過度に無関係な領域を考慮し,顕著で無意味な単語を等しく扱い,検索精度を制限するクロスモーダル細粒度アライメントのためのクロスアライメント機構に大きく依存している。 本稿では,画像やテキストにおける非重要フラグメントの関与を低減しつつ,目立ったセグメントのアライメントを強化するアライメントアプローチを検討することを目的とする。 そこで本研究では,アライメント中の無関係領域の参加を減らし,顕著な単語のアライメント類似度を相対的に高めることにより,検索精度を向上させるクロスモーダルフラグメンツ強化ネットワーク(CPFEAN)を提案する。 さらに,画像領域に先行するテキスト情報を組み込んで,誤認識の発生を低減する。 実際に我々はまず,モーダル内フラグメント関係推論法を設計し,その後に提案したアライメント機構を用いて画像とテキストの類似性を計算した。 MS-COCOとFlickr30Kデータセットの大規模な定量的比較実験により、我々の手法はrSum測定において最先端の手法を約5%から10%上回っていることが示された。

Image-text retrieval is a widely studied topic in the field of computer vision due to the exponential growth of multimedia data, whose core concept is to measure the similarity between images and text. However, most existing retrieval methods heavily rely on cross-attention mechanisms for cross-modal fine-grained alignment, which takes into account excessive irrelevant regions and treats prominent and non-significant words equally, thereby limiting retrieval accuracy. This paper aims to investigate an alignment approach that reduces the involvement of non-significant fragments in images and text while enhancing the alignment of prominent segments. For this purpose, we introduce the Cross-Modal Prominent Fragments Enhancement Aligning Network(CPFEAN), which achieves improved retrieval accuracy by diminishing the participation of irrelevant regions during alignment and relatively increasing the alignment similarity of prominent words. Additionally, we incorporate prior textual information into image regions to reduce misalignment occurrences. In practice, we first design a novel intra-modal fragments relationship reasoning method, and subsequently employ our proposed alignment mechanism to compute the similarity between images and text. Extensive quantitative comparative experiments on MS-COCO and Flickr30K datasets demonstrate that our approach outperforms state-of-the-art methods by about 5% to 10% in the rSum metric.
翻訳日:2023-11-07 19:12:14 公開日:2023-11-03
# 量子ネットワークの非局所性のノイズロバスト証明

Noise-robust proofs of quantum network nonlocality ( http://arxiv.org/abs/2311.02182v1 )

ライセンス: Link先を確認
Sadra Boreiri, Bora Ulu, Nicolas Brunner, Pavel Sekatski(参考訳) 量子ネットワークは、新しい形の量子非局所性を可能にする。 絡み合った状態と絡み合った測定の組み合わせを利用することで、ネットワーク全体に強い非局所相関を発生させることができる。 これまでのところ、この効果のすべての証明は、純粋に絡み合った状態と射影的局所測定の理想化された場合に限定されている。 ここでは、絡み合った状態と絡み合った測定に基づく三角ネットワーク上の量子分布のクラスに対して、ネットワーク量子非局所性のノイズロバスト証明を提案する。 鍵となる要素は、'parity token counting' と呼ばれる性質を高い確率で満たす局所分布の近似剛性の結果である。 不完全な音源で得られる量子分布を考えると、ノイズを強調する場合には最大$\sim 80\%$、ホワイトノイズでは$\sim 0.67\%$となる。 さらに、いくつかの理想量子分布の近傍にあるすべての分布が非局所であり、全変分距離に有界であることが証明できる。 本研究は、量子ネットワーク非局所性の実践的実装に向けた興味深い視点を開く。

Quantum networks allow for novel forms of quantum nonlocality. By exploiting the combination of entangled states and entangled measurements, strong nonlocal correlations can be generated across the entire network. So far, all proofs of this effect are essentially restricted to the idealized case of pure entangled states and projective local measurements. Here we present noise-robust proofs of network quantum nonlocality, for a class of quantum distributions on the triangle network that are based on entangled states and entangled measurements. The key ingredient is a result of approximate rigidity for local distributions that satisfy the so-called ``parity token counting'' property with high probability. Considering quantum distributions obtained with imperfect sources, we obtain noise robustness up to $\sim 80\%$ for dephasing noise and up to $\sim 0.67\%$ for white noise. Additionally, we can prove that all distributions in the vicinity of some ideal quantum distributions are nonlocal, with a bound on the total-variation distance. Our work opens interesting perspectives towards the practical implementation of quantum network nonlocality.
翻訳日:2023-11-07 19:11:50 公開日:2023-11-03
# 複数力学系学習における連立問題

Joint Problems in Learning Multiple Dynamical Systems ( http://arxiv.org/abs/2311.02181v1 )

ライセンス: Link先を確認
Mengjia Niu and Xiaoyu He and Petr Rysavy and Quan Zhou and Jakub Marecek(参考訳) 時系列のクラスタリングはよく研究された問題であり、代謝物濃度から得られた代謝の量的、パーソナライズされたモデルから量子情報理論における状態識別まで応用されている。 我々は,一組のトラジェクトリと複数のパーツを与えられた場合,各パーツのトラジェクトリと線形力学系(LDS)モデルを共同で分割し,全てのモデルにおける最大誤差を最小化するために検討する。 我々は,計算結果の有望性を伴い,グローバル収束法とemヒューリスティックスを提案する。

Clustering of time series is a well-studied problem, with applications ranging from quantitative, personalized models of metabolism obtained from metabolite concentrations to state discrimination in quantum information theory. We consider a variant, where given a set of trajectories and a number of parts, we jointly partition the set of trajectories and learn linear dynamical system (LDS) models for each part, so as to minimize the maximum error across all the models. We present globally convergent methods and EM heuristics, accompanied by promising computational results.
翻訳日:2023-11-07 19:11:33 公開日:2023-11-03
# 連続相互作用を有する粒子検出器の非摂動法

Non-perturbative method for particle detectors with continuous interactions ( http://arxiv.org/abs/2311.02174v1 )

ライセンス: Link先を確認
Jos\'e Polo-G\'omez, Eduardo Mart\'in-Mart\'inez(参考訳) デルタカップリングの列からなる検出器スイッチングプロファイルは,連続的なスイッチング関数を含む結果を,単一検出器と複数検出器の両方で効率的に近似する有用な計算ツールであることを示す。 十分な正規スイッチングに対する摂動理論の全ての順序における連続結果への高速収束は、このツールが連続スイッチング関数を持つ一般粒子検出器現象に対する非摂動結果を得るために使用できることを意味する。

We show that detector switching profiles consisting of trains of delta couplings are a useful computational tool to efficiently approximate results involving continuous switching functions, both in setups involving a single detector and multiple ones. The rapid convergence to the continuous results at all orders in perturbation theory for sufficiently regular switchings means that this tool can be used to obtain non-perturbative results for general particle detector phenomena with continuous switching functions.
翻訳日:2023-11-07 19:11:23 公開日:2023-11-03
# 身体的シーケンスモデリングにおける抽象状態表現の出現

Emergence of Abstract State Representations in Embodied Sequence Modeling ( http://arxiv.org/abs/2311.02171v1 )

ライセンス: Link先を確認
Tian Yun, Zilai Zeng, Kunal Handa, Ashish V Thapliyal, Bo Pang, Ellie Pavlick, Chen Sun(参考訳) シーケンスモデリングによる決定は、具体的エージェントによるアクションが予測トークンとしてモデル化される言語モデルの成功を模倣することを目的としている。 その有望な性能にもかかわらず、具体的シーケンスモデリングが環境状態情報を表す内部表現の出現に繋がるかどうかは不明である。 抽象状態表現を欠いたモデルは、一般化に失敗する表面統計に基づいて決定をする義務がある。 言語条件付きナビゲーションタスクが実行されるグリッドワールドであるBabyAI環境を、言語命令、アクションのシーケンス、環境観察を入力として、シーケンスモデリングトランスフォーマーを構築する。 抽象状態表現の出現を調べるために,初期環境レイアウト,言語命令,タスクを完了するための動作シーケンスのみをトレーニングに利用できる"blindfolded"ナビゲーションタスクを設計した。 実験の結果,学習モデルの内部アクティベーションから中間環境配置を合理的に再構築することができ,言語指導が再現精度に果たす役割が示唆された。 以上の結果から, 状態表現の多くの重要な特徴は, 具体的シーケンスモデリングによって実現し, より複雑な具体的決定領域へのシーケンスモデリング目的の適用に対する楽観的な展望をサポートすることが示唆された。

Decision making via sequence modeling aims to mimic the success of language models, where actions taken by an embodied agent are modeled as tokens to predict. Despite their promising performance, it remains unclear if embodied sequence modeling leads to the emergence of internal representations that represent the environmental state information. A model that lacks abstract state representations would be liable to make decisions based on surface statistics which fail to generalize. We take the BabyAI environment, a grid world in which language-conditioned navigation tasks are performed, and build a sequence modeling Transformer, which takes a language instruction, a sequence of actions, and environmental observations as its inputs. In order to investigate the emergence of abstract state representations, we design a "blindfolded" navigation task, where only the initial environmental layout, the language instruction, and the action sequence to complete the task are available for training. Our probing results show that intermediate environmental layouts can be reasonably reconstructed from the internal activations of a trained model, and that language instructions play a role in the reconstruction accuracy. Our results suggest that many key features of state representations can emerge via embodied sequence modeling, supporting an optimistic outlook for applications of sequence modeling objectives to more complex embodied decision-making domains.
翻訳日:2023-11-07 19:11:15 公開日:2023-11-03
# 工学環境における非平衡ボース凝縮制御

Controlling Nonequilibrium Bose Condensation with Engineered Environments ( http://arxiv.org/abs/2311.02170v1 )

ライセンス: Link先を確認
Francesco Petiziol and Andr\'e Eckardt(参考訳) 熱平衡のため、ボソニック量子系は基底状態からボース凝縮することができ、励起状態の巨視的占有や、いわゆるボース選択シナリオにおいて複数の状態を含む。 量子ジャンプの非平衡運動、理論的理解、実用的な戦略の発展により、そのような効果を説明する理論が開発されているが、システムの制御と所望のボース凝縮パターンへの推進には不足している。 システムと人工量子バスを結合させることにより、相対的な占有を含む微調整された単一あるいは複数の凝縮モードがどのように構築されるかを示す。 さらに, 超電導回路で実験的に実装可能なボース凝縮器を提案し, 共振器列の固有状態へのターゲットボース凝縮を誘導する補助駆動減衰二段系によりバス工学を実現する。 さらに, 増幅, 熱流量制御, 高構造量子浴の設計に応用可能な, 異なるボース凝縮構成間の遷移点の工学的考察を行った。

Out of thermal equilibrium, bosonic quantum systems can Bose-condense away from the ground state, featuring a macroscopic occupation of an excited state, or even of multiple states in the so-called Bose-selection scenario. While theory has been developed describing such effects as they result from the nonequilibrium kinetics of quantum jumps, a theoretical understanding, and the development of practical strategies, to control and drive the system into desired Bose condensation patterns have been lacking. We show how fine-tuned single or multiple condensate modes, including their relative occupation, can be engineered by coupling the system to artificial quantum baths. Moreover, we propose a Bose `condenser', experimentally implementable in a superconducting circuit, where bath engineering is realized via auxiliary driven-damped two-level systems, that induces targeted Bose condensation into eigenstates of a chain of resonators. We further discuss the engineering of transition points between different Bose condensation configurations, which may find application for amplification, heat-flow control, and the design of highly-structured quantum baths.
翻訳日:2023-11-07 19:10:51 公開日:2023-11-03
# PT対称非エルミタンホップ金属

PT-symmetric Non-Hermitian Hopf Metal ( http://arxiv.org/abs/2311.02155v1 )

ライセンス: Link先を確認
Seik Pak and Cheol Hun Yeom and Sonu Verma and Moon Jip Park(参考訳) ホップ絶縁体は、3次元トポロジカル絶縁体の代表的なクラスであり、K-理論に基づく標準トポロジカル分類法を越えている。 この手紙では、非エルミート系におけるホップ絶縁体の金属的相違を発見した。 ホップ不変量は追加の非エルミート自由度のために安定な位相指数ではないが、pt-対称性は非エルミート性の存在下でもホップ不変量を安定化させる。 エルミート相のホップ絶縁体相とは対照的に、非エルミートホップ束は、例外点の2次元曲面を特徴とする位相的に保護された非エルミート縮退性を示す興味深い結果を発見した。 非ハーモニティ性にもかかわらず、ホップ金属は量子化されたザック相を持ち、境界にドラムヘッドのような表面状態を示すことによりバルクバウンダリ対応をもたらす。 最後に、PT対称性を破ることで、節面がノット付き例外線に変形することを示す。 ホップ金属相の発見は、第一に標準位相分類の枠組み外の非エルミート位相相の存在を確認した。

Hopf insulator is a representative class of three-dimensional topological insulators beyond the standard topological classification methods based on K-theory. In this letter, we discover the metallic counterpart of the Hopf insulator in the non-Hermitian systems. While the Hopf invariant is not a stable topological index due to the additional non-Hermitian degree of freedom, we show that the PT-symmetry stabilizes the Hopf invariant even in the presence of the non-Hermiticity. In sharp contrast to the Hopf insulator phase in the Hermitian counterpart, we discover an interesting result that the non-Hermitian Hopf bundle exhibits the topologically protected non-Hermitian degeneracy, characterized by the two-dimensional surface of exceptional points. Despite the non-Hermiticity, the Hopf metal has the quantized Zak phase, which results in bulk-boundary correspondence by showing drumhead-like surface states at the boundary. Finally, we show that, by breaking PT-symmetry, the nodal surface deforms into the knotted exceptional lines. Our discovery of the Hopf metal phase firstly confirms the existence of the non-Hermitian topological phase outside the framework of the standard topological classifications.
翻訳日:2023-11-07 19:10:31 公開日:2023-11-03
# 無背景イメージングによる集積原子アレイ-ナノフォトニックチッププラットフォーム

An integrated atom array -- nanophotonic chip platform with background-free imaging ( http://arxiv.org/abs/2311.02153v1 )

ライセンス: Link先を確認
Shankar G. Menon, Noah Glachman, Matteo Pompili, Alan Dibos, and Hannes Bernien(参考訳) 光ツイーザーに閉じ込められた中性原子の配列は、スケーラビリティ、再構成可能な接続性、高忠実度操作のために量子情報処理と量子シミュレーションの先駆的なプラットフォームとして登場した。 個々の原子は、内部原子状態と絡み合っている識別不能な光子を放出する能力があるため、量子ネットワークの候補として有望である。 atom配列とフォトニックインタフェースを統合することで、多くの処理キュービットをホストするノードがリモートの絡み合いの分散を介して効率的にリンクできる分散アーキテクチャが可能になる。 しかし、多くの原子配列技術はフォトニック界面に近接して機能しなくなり、標準的な蛍光イメージングによる原子検出は、近くのフォトニックデバイスからの散乱による大きな課題を示す。 ここでは、アトムアレイと最大64個の光学tweezと100以上のナノフォトニックデバイスをホストするミリメートルのフォトニックチップを組み合わせたアーキテクチャを実証する。 多色励起・検出方式を用いて,ナノファブリケーションデバイスに近接した背景のない高忠実(約99.2%)画像を実現する。 原子は誘電体表面の数百ナノメートル上空に閉じ込められて撮影することができ、修正されたトラップ電位のスタークシフト測定を用いて検証する。 最後に、原子を欠陥のない配列に並べ替え、同じまたは複数のデバイスに同時にロードします。

Arrays of neutral atoms trapped in optical tweezers have emerged as a leading platform for quantum information processing and quantum simulation due to their scalability, reconfigurable connectivity, and high-fidelity operations. Individual atoms are promising candidates for quantum networking due to their capability to emit indistinguishable photons that are entangled with their internal atomic states. Integrating atom arrays with photonic interfaces would enable distributed architectures in which nodes hosting many processing qubits could be efficiently linked together via the distribution of remote entanglement. However, many atom array techniques cease to work in close proximity to photonic interfaces, with atom detection via standard fluorescence imaging presenting a major challenge due to scattering from nearby photonic devices. Here, we demonstrate an architecture that combines atom arrays with up to 64 optical tweezers and a millimeter-scale photonic chip hosting more than 100 nanophotonic devices. We achieve high-fidelity (~99.2%), background-free imaging in close proximity to nanofabricated devices using a multichromatic excitation and detection scheme. The atoms can be imaged while trapped a few hundred nanometers above the dielectric surface, which we verify using Stark shift measurements of the modified trapping potential. Finally, we rearrange atoms into defect-free arrays and load them simultaneously onto the same or multiple devices.
翻訳日:2023-11-07 19:10:10 公開日:2023-11-03
# スピングラスモデルに適用したパリティエンコード量子近似最適化アルゴリズムの消滅性能

Vanishing performance of the parity-encoded quantum approximate optimization algorithm applied to spin-glass models ( http://arxiv.org/abs/2311.02151v1 )

ライセンス: Link先を確認
Elisabeth Wybo and Martin Leib(参考訳) パリティマッピングは量子近似最適化アルゴリズム(QAOA)を幾何学的に局所的に符号化し、全接続問題に対する2次量子ビットオーバーヘッドを犠牲にしている。 本研究では,スピングラスモデル上でのパリティ符号化QAOAをベンチマークする。 このアルゴリズムのスケーリングにおけるオープンな問題に対処し、パリティエンコードされたQAOA層の固定数に対して、性能が$N^{-1/2}$となることを示す。 この結果を確認するためにテンソルネットワーク計算を行い、問題インスタンスに対する最適QAOAパラメータの集中についてコメントする。

The parity mapping provides a geometrically local encoding of the Quantum Approximate Optimization Algorithm (QAOA), at the expense of having a quadratic qubit overhead for all-to-all connected problems. In this work, we benchmark the parity-encoded QAOA on spin-glass models. We address open questions in the scaling of this algorithm, and show that for fixed number of parity-encoded QAOA layers, the performance drops as $N^{-1/2}$. We perform tensor-network calculations to confirm this result, and comment on the concentration of optimal QAOA parameters over problem instances.
翻訳日:2023-11-07 19:09:46 公開日:2023-11-03
# 文脈におけるアライメント問題

The Alignment Problem in Context ( http://arxiv.org/abs/2311.02147v1 )

ライセンス: Link先を確認
Rapha\"el Milli\`ere(参考訳) ますます有能なAIシステムの開発における中核的な課題は、彼らの振る舞いが人間の価値観と一致していることを保証することによって、それらを安全かつ確実にすることである。 アライメント問題として知られるこの課題は、破滅的なリスクを引き起こす可能性のある仮説的な未来のAIシステムにのみ適用されない。 本稿では,大規模言語モデルのアライメント問題を解決するための軌道上にあるか,将来のAIシステムの安全性にどのような意味があるのかを評価する。 なぜなら、大きな言語モデルは、確実に安全でない振る舞いを解明できる敵の攻撃に対して脆弱であるからです。 私は、単に現在の言語モデルの断続的な制限であるだけでなく、これらのモデルを有用で汎用性のあるものにする上で重要な側面、すなわち、ユーザインストラクションから直接"コンテキスト"を学ぶという彼らの顕著な適性に深い技術的結びつきがある、というこの退屈な脆弱性について説明します。 その結果、アライメント問題は現在のAIシステムでは未解決であるだけでなく、その能力を著しく損なうことなく、本質的に解決が難しい可能性がある。 さらに、この評価は、将来的でより有能なAIシステムの安全性を確保する可能性への懸念を提起する。

A core challenge in the development of increasingly capable AI systems is to make them safe and reliable by ensuring their behaviour is consistent with human values. This challenge, known as the alignment problem, does not merely apply to hypothetical future AI systems that may pose catastrophic risks; it already applies to current systems, such as large language models, whose potential for harm is rapidly increasing. In this paper, I assess whether we are on track to solve the alignment problem for large language models, and what that means for the safety of future AI systems. I argue that existing strategies for alignment are insufficient, because large language models remain vulnerable to adversarial attacks that can reliably elicit unsafe behaviour. I offer an explanation of this lingering vulnerability on which it is not simply a contingent limitation of current language models, but has deep technical ties to a crucial aspect of what makes these models useful and versatile in the first place -- namely, their remarkable aptitude to learn "in context" directly from user instructions. It follows that the alignment problem is not only unsolved for current AI systems, but may be intrinsically difficult to solve without severely undermining their capabilities. Furthermore, this assessment raises concerns about the prospect of ensuring the safety of future and more capable AI systems.
翻訳日:2023-11-07 19:09:35 公開日:2023-11-03
# 部分評価による関数ネットワークのベイズ最適化

Bayesian Optimization of Function Networks with Partial Evaluations ( http://arxiv.org/abs/2311.02146v1 )

ライセンス: Link先を確認
Poompol Buathong, Jiayue Wan, Samuel Daulton, Raul Astudillo, Maximilian Balandat, Peter I. Frazier(参考訳) ベイズ最適化は、評価にコストや時間を要する関数を最適化するためのフレームワークである。 最近の研究は、関数ネットワーク(BOFN)のベイズ最適化を検討しており、対象関数は関数のネットワークを介して計算され、それぞれがネットワーク内の前のノードの出力と追加パラメータを入力とする。 このネットワーク構造の展開は、大幅な性能向上をもたらすことが示されている。 各イテレーションで全ネットワークを評価するには,既存の汎用ネットワークのためのBOFNアルゴリズムが必要である。 しかし、現実世界のアプリケーションの多くは個別にノードを評価することができる。 この機会を生かして,bofnのための新しい知識勾配取得関数を提案する。 このアプローチは、ネットワーク全体の評価よりも低いコストでネットワークの一部を評価することで、クエリコストを劇的に削減することができる。 提案手法は,取得関数を最適化し,既存のBOFNメソッドや他のベンチマークよりも優れた性能を示す。 我々の獲得関数は、幅広い種類の関数ネットワークのコスト認識最適化を可能にする最初のものである。

Bayesian optimization is a framework for optimizing functions that are costly or time-consuming to evaluate. Recent work has considered Bayesian optimization of function networks (BOFN), where the objective function is computed via a network of functions, each taking as input the output of previous nodes in the network and additional parameters. Exploiting this network structure has been shown to yield significant performance improvements. Existing BOFN algorithms for general-purpose networks are required to evaluate the full network at each iteration. However, many real-world applications allow evaluating nodes individually. To take advantage of this opportunity, we propose a novel knowledge gradient acquisition function for BOFN that chooses which node to evaluate as well as the inputs for that node in a cost-aware fashion. This approach can dramatically reduce query costs by allowing the evaluation of part of the network at a lower cost relative to evaluating the entire network. We provide an efficient approach to optimizing our acquisition function and show it outperforms existing BOFN methods and other benchmarks across several synthetic and real-world problems. Our acquisition function is the first to enable cost-aware optimization of a broad class of function networks.
翻訳日:2023-11-07 19:09:11 公開日:2023-11-03
# 量子材料シミュレーションのためのペアリンググラフニューラルネットワーク

Pairing-based graph neural network for simulating quantum materials ( http://arxiv.org/abs/2311.02143v1 )

ライセンス: Link先を確認
Di Luo, David D. Dai, and Liang Fu(参考訳) 量子多体系をシミュレートするためのペアリングベースのグラフニューラルネットワークである$\textit{geminet}$を導入する。 我々のアーキテクチャは、グラフニューラルネットワークによってパラメータ化された一般化ペア振幅を用いて、BCS平均場波動関数を増大させる。 GemiNetを使った変分モンテカルロは、多数の電子系をシミュレートするための正確で柔軟でスケーラブルな手法を同時に提供する。 我々は,GemiNetを2次元半導体電子-ホール二層膜に適用し,エキシトンボース-アインシュタイン凝縮体,電子-ホール超伝導体,二層ウィグナー結晶など,様々な相互作用誘起相の高精度な結果を得た。 本研究は,量子材料シミュレーションにおける物理的動機付け型ニューラルネットワーク波動関数の可能性を示す。

We introduce a pairing-based graph neural network, $\textit{GemiNet}$, for simulating quantum many-body systems. Our architecture augments a BCS mean-field wavefunction with a generalized pair amplitude parameterized by a graph neural network. Variational Monte Carlo with GemiNet simultaneously provides an accurate, flexible, and scalable method for simulating many-electron systems. We apply GemiNet to two-dimensional semiconductor electron-hole bilayers and obtain highly accurate results on a variety of interaction-induced phases, including the exciton Bose-Einstein condensate, electron-hole superconductor, and bilayer Wigner crystal. Our study demonstrates the potential of physically-motivated neural network wavefunctions for quantum materials simulations.
翻訳日:2023-11-07 19:08:51 公開日:2023-11-03
# グラフ生成のための離散拡散モデルのスパーストレーニング

Sparse Training of Discrete Diffusion Models for Graph Generation ( http://arxiv.org/abs/2311.02142v1 )

ライセンス: Link先を確認
Yiming Qin, Clement Vignac, Pascal Frossard(参考訳) グラフの生成モデルは、ノードペアごとに相互作用を予測する必要があるため、しばしばスケーラビリティの課題に直面する。 実世界のグラフによってしばしば表されるスパース性にもかかわらず、それらの隣接行列の予測不能なスパース性パターンは、それらの無秩序な性質に由来するが、二次計算複雑性をもたらす。 本稿では,SparseDiffについて紹介する。SparseDiffは,学習段階における空間性を利用したグラフ生成の認知拡散モデルである。 SparseDiffのコアにあるメッセージパッシングニューラルネットワークは、各フォワードパス中にエッジのサブセットのみを予測するように設計されている。 空間保存ノイズモデルと組み合わせると、このモデルはグラフのエッジリスト表現を効率的に扱えるようになり、より大きな構造に拡張性を持たせることができる。 サンプリングフェーズの間、スパースディフは隣接行列を前の状態から反復的に投入し、メモリ使用量制御しながら全グラフの予測を保証する。 実験結果から, SparseDiffは, 小グラフと大グラフの両方において, 生成性能の同時一致を示し, 本手法の汎用性を強調した。

Generative models for graphs often encounter scalability challenges due to the inherent need to predict interactions for every node pair. Despite the sparsity often exhibited by real-world graphs, the unpredictable sparsity patterns of their adjacency matrices, stemming from their unordered nature, leads to quadratic computational complexity. In this work, we introduce SparseDiff, a denoising diffusion model for graph generation that is able to exploit sparsity during its training phase. At the core of SparseDiff is a message-passing neural network tailored to predict only a subset of edges during each forward pass. When combined with a sparsity-preserving noise model, this model can efficiently work with edge lists representations of graphs, paving the way for scalability to much larger structures. During the sampling phase, SparseDiff iteratively populates the adjacency matrix from its prior state, ensuring prediction of the full graph while controlling memory utilization. Experimental results show that SparseDiff simultaneously matches state-of-the-art in generation performance on both small and large graphs, highlighting the versatility of our method.
翻訳日:2023-11-07 19:08:41 公開日:2023-11-03
# 未知のモデルと実用不可能な安全証明書を用いた安全オンラインダイナミクス学習

Safe Online Dynamics Learning with Initially Unknown Models and Infeasible Safety Certificates ( http://arxiv.org/abs/2311.02133v1 )

ライセンス: Link先を確認
Alexandre Capone, Ryan Cosner, Aaron Ames, Sandra Hirche(参考訳) 不確実性が高い安全クリティカルな制御タスクがますます一般的になっている。 通常、学習と制御中の安全性を保証する技術は、安全制御入力を計算するために利用される制約ベースの安全証明書を利用する。 しかし、過度なモデル不確実性は堅牢な安全性認証手法や実現不可能を図ることができるため、安全証明書によって課される制約を満たす制御入力は得られない。 本稿では,制御バリア関数(cbf)2次コーンプログラムに基づくロバストな安全証明書を用いた学習ベースの設定について検討する。 コントロールバリア機能証明書が実現可能ならば,安全性を保証するために,当社のアプローチが活用します。 さもなくば,本手法は,データ収集のためのシステムダイナミクスを探索し,制御障壁関数制約の有効性を回復する。 この目的のために,ベイズ最適化の確立したツールに触発された手法を採用する。 サンプリング周波数が十分高い場合には、ロバストなcbf証明書の信頼性を回復し、安全性を保証できることを示す。 我々のアプローチでは、事前のモデルや知識を必要とせず、バックアップされた非学習ベースのコントローラを必要とせずに、時折実現不可能な安全証明書を持つ設定における安全性を保証する最初のアルゴリズムに対応しています。

Safety-critical control tasks with high levels of uncertainty are becoming increasingly common. Typically, techniques that guarantee safety during learning and control utilize constraint-based safety certificates, which can be leveraged to compute safe control inputs. However, excessive model uncertainty can render robust safety certification methods or infeasible, meaning no control input satisfies the constraints imposed by the safety certificate. This paper considers a learning-based setting with a robust safety certificate based on a control barrier function (CBF) second-order cone program. If the control barrier function certificate is feasible, our approach leverages it to guarantee safety. Otherwise, our method explores the system dynamics to collect data and recover the feasibility of the control barrier function constraint. To this end, we employ a method inspired by well-established tools from Bayesian optimization. We show that if the sampling frequency is high enough, we recover the feasibility of the robust CBF certificate, guaranteeing safety. Our approach requires no prior model and corresponds, to the best of our knowledge, to the first algorithm that guarantees safety in settings with occasionally infeasible safety certificates without requiring a backup non-learning-based controller.
翻訳日:2023-11-07 19:08:18 公開日:2023-11-03
# noma対応階層型連合学習のためのクライアントオーケストレーションとコスト効率の高い共同最適化

Client Orchestration and Cost-Efficient Joint Optimization for NOMA-Enabled Hierarchical Federated Learning ( http://arxiv.org/abs/2311.02130v1 )

ライセンス: Link先を確認
Bibo Wu, Fang Fang, Xianbin Wang, Donghong Cai, Shu Fu and Zhiguo Ding(参考訳) 階層型フェデレーション学習(hfl)は,分散型flクライアントのデータプライバシを維持しつつネットワークオーバーヘッドとインタラクションレイテンシを削減する上で,従来の2層フェデレーション学習(fl)よりも優れたメリットを示している。 しかし、通信とエネルギーのオーバーヘッドは、特にクライアント数が劇的に増加するにつれて、HFLのパフォーマンスのボトルネックとなる。 本論文では, 半同期クラウドモデルアグリゲーションに基づく非直交多重アクセス(NOMA)を実現するHFLシステムを提案し, 各HFLグローバルラウンドにおける時間とエネルギーの総コストを最小化することを目的とした。 具体的には、チャネル品質、データ量、モデルの安定性など、クライアントの不均一性を考慮したファジィ論理に基づく新しいクライアントオーケストレーションポリシーを提案する。 その後、ファジィベースのクライアントエッジアソシエーションにより、エッジサーバのスケジューリングとリソース割り当ての問題が定式化される。 問題分解を利用すると、まずペナルティ二重分解法(PDD)を用いてエッジサーバスケジューリングサブプロブレムの閉形式解を導出する。 次に,時間変動環境を考慮した資源割当問題に対処するために,ddpg(deep deterministic policy gradient)に基づくアルゴリズムを提案する。 最後に,提案手法はHFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。

Hierarchical federated learning (HFL) shows great advantages over conventional two-layer federated learning (FL) in reducing network overhead and interaction latency while still retaining the data privacy of distributed FL clients. However, the communication and energy overhead still pose a bottleneck for HFL performance, especially as the number of clients raises dramatically. To tackle this issue, we propose a non-orthogonal multiple access (NOMA) enabled HFL system under semi-synchronous cloud model aggregation in this paper, aiming to minimize the total cost of time and energy at each HFL global round. Specifically, we first propose a novel fuzzy logic based client orchestration policy considering client heterogenerity in multiple aspects, including channel quality, data quantity and model staleness. Subsequently, given the fuzzy based client-edge association, a joint edge server scheduling and resource allocation problem is formulated. Utilizing problem decomposition, we firstly derive the closed-form solution for the edge server scheduling subproblem via the penalty dual decomposition (PDD) method. Next, a deep deterministic policy gradient (DDPG) based algorithm is proposed to tackle the resource allocation subproblem considering time-varying environments. Finally, extensive simulations demonstrate that the proposed scheme outperforms the considered benchmarks regarding HFL performance improvement and total cost reduction.
翻訳日:2023-11-07 19:08:00 公開日:2023-11-03
# 密度推定と因果推論のための構造化ニューラルネットワーク

Structured Neural Networks for Density Estimation and Causal Inference ( http://arxiv.org/abs/2311.02221v1 )

ライセンス: Link先を確認
Asic Q. Chen, Ruian Shi, Xiang Gao, Ricardo Baptista, Rahul G. Krishnan(参考訳) ニューラルネットワークに構造を注入することで、入力のサブセットに関して不変性を満たす学習関数が可能になる。 例えば、ニューラルネットワークを用いて生成モデルを学習する場合、しばしばベイズネットワークの形で、観測変数の条件付き独立構造を符号化することが有利である。 本稿では,ニューラルネットワークのマスキング経路を通じて構造を注入する構造ニューラルネットワーク(StrNN)を提案する。 マスクは、我々がニューラルネットワークアーキテクチャとバイナリ行列分解の間で探求する新しい関係を通して設計され、所望の非依存が尊重されることを保証する。 我々は、モデルアーキテクチャを制御する新しい目的に基づいたnpハード設計問題に対して、実用的なアルゴリズムを考案し、研究する。 我々は,(1) StrNNを用いた二分法とガウス密度推定,(2) 構造化自己回帰流(StrAF)と構造化連続正規化流(StrCNF)による実数値密度推定,(3) 因果推論のためのStrAFによる干渉および反ファクト解析の3つの応用において,StrNNの有用性を実証する。 我々の研究は、データ効率の良い生成モデルを可能にするニューラルネットワーク学習のための新しい道を開き、因果効果推定に正規化フローを使用する。

Injecting structure into neural networks enables learning functions that satisfy invariances with respect to subsets of inputs. For instance, when learning generative models using neural networks, it is advantageous to encode the conditional independence structure of observed variables, often in the form of Bayesian networks. We propose the Structured Neural Network (StrNN), which injects structure through masking pathways in a neural network. The masks are designed via a novel relationship we explore between neural network architectures and binary matrix factorization, to ensure that the desired independencies are respected. We devise and study practical algorithms for this otherwise NP-hard design problem based on novel objectives that control the model architecture. We demonstrate the utility of StrNN in three applications: (1) binary and Gaussian density estimation with StrNN, (2) real-valued density estimation with Structured Autoregressive Flows (StrAFs) and Structured Continuous Normalizing Flows (StrCNF), and (3) interventional and counterfactual analysis with StrAFs for causal inference. Our work opens up new avenues for learning neural networks that enable data-efficient generative modeling and the use of normalizing flows for causal effect estimation.
翻訳日:2023-11-07 19:01:47 公開日:2023-11-03
# 二重ポテンシャルウェルに閉じ込められた1次元ボース-フェルミ混合物に対する静電場の影響

Influence of a static electric field on a one-dimensional Bose-Fermi mixture confined in a double potential welll ( http://arxiv.org/abs/2311.02218v1 )

ライセンス: Link先を確認
Avella Richard, Grajales Diana and Rubio Juan Pablo(参考訳) 本研究では,Bose-Fermi混合体を収容する1次元二重井戸電位における確率密度の時間的変化について詳細に検討した。 このシステムは、スピンレスボソンと、弱い反発性接触相互作用を持つスピン1半フェルミオンからなる。 特に、非常に低い有効結合定数でも周期的確率が観察され、ボソンとフェルミオンの相関トンネルが示され、外部電場がオンになったときに完全に不確実性が消失した。 電場は、パウリの排除原理によるフェルミオン-フェルミオン相互作用をアクセントし、ボソン密度と相互作用を変化させ、粒子の空間的再分配をもたらした。 これらの知見は、限定量子系における相互作用、外部場、空間分布の間の複雑な相互作用を裏付けるものである。 高い相互作用強度の探索により,確率密度関数の解離条件が明らかになった。 さらに, 電場によるフェルミオン相互作用の増加は, ボーソン-フェルミオン相互作用の反発性により, 両種ともトンネル周波数が上昇することを示した。 逆にボソン-ボソン相互作用の増大は両種の完全なトンネル化をもたらし、特にボソン密度が高い場合にはフェルミオンの抑制に繋がった。 解析を4つのボソンを含むシナリオに拡張すると、高い相互作用値がトンネル確率の振動周波数の増加に対応することが示された。 最後に, 相互作用パラメータを演算し, 電場を活性化することにより, 両種の完全なトンネル化を実現し, さらに振動周波数が増加し, 重なり合う確率関数を特徴とする間隔が生じた。

In this study, we conducted a detailed investigation into the time evolution of the probability density within a 1D double-well potential hosting a Bose-Fermi mixture. This system comprised spinless bosons and spin one-half fermions with weak repulsive contact interactions. Notably, even at very low effective coupling constants, periodic probabilities were observed, indicating correlated tunneling of both bosons and fermions, leading to complete miscibility, which disappears when an external electric field is turned on. The electric field accentuated fermion-fermion interactions due to the Pauli exclusion principle, altering both boson density and interactions and leading to spatial redistribution of particles. These findings underscore the complex interplay between interactions, external fields, and spatial distributions within confined quantum systems. Our exploration of higher interaction strengths revealed conditions under which probability density functions are decoupled. Furthermore, we observed that increased fermion interaction, driven by the electric field, led to higher tunneling frequencies for both species because of the repulsive nature of the boson-fermion interaction. Conversely, increased boson-boson interaction resulted in complete tunneling of both species, especially when boson density was high, leading to effective fermion repulsion. Expanding our analysis to scenarios involving four bosons demonstrated that higher interaction values corresponded to increased oscillation frequencies in tunneling probabilities. Finally, by manipulating interaction parameters and activating the electric field, we achieved complete tunneling of both species, further increasing oscillation frequencies and resulting in intervals characterized by overlapping probability functions.
翻訳日:2023-11-07 19:01:23 公開日:2023-11-03
# 言語モデルの数値推論能力の検討:表データに関する包括的分析

Exploring the Numerical Reasoning Capabilities of Language Models: A Comprehensive Analysis on Tabular Data ( http://arxiv.org/abs/2311.02216v1 )

ライセンス: Link先を確認
Mubashara Akhtar, Abhilash Shankarampeta, Vivek Gupta, Arpit Patil, Oana Cocarascu, Elena Simperl(参考訳) 数字は金融、経済学、科学といった様々な現実世界の領域にとって重要である。 したがって、言語モデルが様々なタスクを解くためには、数字による理解と推論が不可欠である。 近年、異なる数値ベンチマークが導入されたが、それらは主に特定の数値的な側面に限られている。 本稿では,表現,数感覚,操作,複雑推論の4段階にわたる10以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。 我々は,最新モデルの包括的評価を行い,それら特有の推論課題を特定する。 そこで,我々は半自動アプローチを用いた多種多様な数値プローブを開発した。 我々は,表型自然言語推論(tnli)タスクをケーススタディとして重視し,モデルの性能変化を計測する。 その結果,すべての数値推論型において,モデルが一貫して優れたものはないことがわかった。 調査されたモデルのうち、flant5 (few-/zero-shot) と gpt-3.5 (few-shot) は他のモデルと比較して高い数値推論能力を示している。 ラベルフリッププローブは、モデルがしばしばデータセットアーティファクトを利用して正しいラベルを予測することを示している。

Numbers are crucial for various real-world domains such as finance, economics, and science. Thus, understanding and reasoning with numbers are essential skills for language models to solve different tasks. While different numerical benchmarks have been introduced in recent years, they are limited to specific numerical aspects mostly. In this paper, we propose a hierarchical taxonomy for numerical reasoning skills with more than ten reasoning types across four levels: representation, number sense, manipulation, and complex reasoning. We conduct a comprehensive evaluation of state-of-the-art models to identify reasoning challenges specific to them. Henceforth, we develop a diverse set of numerical probes employing a semi-automated approach. We focus on the tabular Natural Language Inference (TNLI) task as a case study and measure models' performance shifts. Our results show that no model consistently excels across all numerical reasoning types. Among the probed models, FlanT5 (few-/zero-shot) and GPT-3.5 (few-shot) demonstrate strong overall numerical reasoning skills compared to other models. Label-flipping probes indicate that models often exploit dataset artifacts to predict the correct labels.
翻訳日:2023-11-07 19:00:56 公開日:2023-11-03
# 非構造データによく対応したモデルフリーRLアルゴリズム

Towards model-free RL algorithms that scale well with unstructured data ( http://arxiv.org/abs/2311.02215v1 )

ライセンス: Link先を確認
Joseph Modayil and Zaheer Abbas(参考訳) 従来の強化学習(rl)アルゴリズムは、強力な関数近似と組み合わせると、その理論的な定式化といくつかの課題領域で高い性能を示す。 しかし、ほとんどの関数近似法は、優れたパフォーマンス(畳み込みネットワーク、グラフニューラルネットワーク、タイル符号化など)のために入力の構造に関する外部に設定された知識に依存しているため、スケールでの非構造化観測の問題によく対応するRLアルゴリズムの開発は依然として困難である。 RLの一般的な実践は、単一の問題や観測スケールの変動に制限のある問題についてアルゴリズムを評価することである。 RLの実践者は、様々な問題スケールでインスタンス化されると、単一のRLアルゴリズムがどれだけうまく機能するかを研究する体系的な方法がなく、非構造的な観察とうまくスケールする関数近似技術が欠けている。 非構造化観測ベクトルと平坦な作用空間のスケーリングを研究する環境とアルゴリズムを提供することで、これらの制限に対処する。 本稿では,指数関数的に大きな状態空間と高次元力学を持つ組合せRL問題群を紹介するが,線形計算で(非線形)値関数の推定値を求めるのに十分である。 本稿では,報奨関連一般値関数(GVF)質問を構築し,経験ストリームから直接予測構造を発見し,活用するアルゴリズムを提案する。 合成問題に対するアプローチの実証的評価では, 観測サイズと線形にスケールするサンプルの複雑さを観察する。 提案アルゴリズムはこれらのスケーリング問題に対して従来のディープRLアルゴリズムを確実に上回り、いくつかの望ましい補助特性を示す。 これらの結果は,非構造化データから大規模にアルゴリズムを学習できる新しいアルゴリズム機構を提案する。

Conventional reinforcement learning (RL) algorithms exhibit broad generality in their theoretical formulation and high performance on several challenging domains when combined with powerful function approximation. However, developing RL algorithms that perform well across problems with unstructured observations at scale remains challenging because most function approximation methods rely on externally provisioned knowledge about the structure of the input for good performance (e.g. convolutional networks, graph neural networks, tile-coding). A common practice in RL is to evaluate algorithms on a single problem, or on problems with limited variation in the observation scale. RL practitioners lack a systematic way to study how well a single RL algorithm performs when instantiated across a range of problem scales, and they lack function approximation techniques that scale well with unstructured observations. We address these limitations by providing environments and algorithms to study scaling for unstructured observation vectors and flat action spaces. We introduce a family of combinatorial RL problems with an exponentially large state space and high-dimensional dynamics but where linear computation is sufficient to learn a (nonlinear) value function estimate for performant control. We provide an algorithm that constructs reward-relevant general value function (GVF) questions to find and exploit predictive structure directly from the experience stream. In an empirical evaluation of the approach on synthetic problems, we observe a sample complexity that scales linearly with the observation size. The proposed algorithm reliably outperforms a conventional deep RL algorithm on these scaling problems, and they exhibit several desirable auxiliary properties. These results suggest new algorithmic mechanisms by which algorithms can learn at scale from unstructured data.
翻訳日:2023-11-07 19:00:37 公開日:2023-11-03
# 複合潜在空間ベイズ最適化

Joint Composite Latent Space Bayesian Optimization ( http://arxiv.org/abs/2311.02213v1 )

ライセンス: Link先を確認
Natalie Maus and Zhiyuan Jerry Lin and Maximilian Balandat and Eytan Bakshy(参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、確率モデルを用いて予測可能な入力位置を推定する、サンプリング効率の良いブラックボックス最適化手法である。 f=g o h のような複合構造関数を扱うとき、特定の位置 x を評価すると、最終的な結果 f(x) = g(h(x)) と中間出力(s) h(x) の両方の観測が得られる。 従来の研究では、これらの中間出力からの情報の統合によりBO性能が大幅に向上することが示されている。 しかし、出力 h(x) が高次元である場合、既存の手法は困難である。 多くの関連する問題は、生成AI、分子設計、ロボット工学など、この設定に該当する。 そこで,本研究では,ニューラルネットワークエンコーダと確率モデルとを共同で学習し,高次元入力と出力空間を適応的に圧縮し,管理可能な潜在表現に変換する新しい枠組みであるjoco(composite latent space bayesian optimization)を提案する。 これにより、圧縮された表現上で実行可能なBOが可能となり、JoCoは様々なシミュレートされた実世界の問題において、高次元BOにおける他の最先端の方法よりも優れている。

Bayesian Optimization (BO) is a technique for sample-efficient black-box optimization that employs probabilistic models to identify promising input locations for evaluation. When dealing with composite-structured functions, such as f=g o h, evaluating a specific location x yields observations of both the final outcome f(x) = g(h(x)) as well as the intermediate output(s) h(x). Previous research has shown that integrating information from these intermediate outputs can enhance BO performance substantially. However, existing methods struggle if the outputs h(x) are high-dimensional. Many relevant problems fall into this setting, including in the context of generative AI, molecular design, or robotics. To effectively tackle these challenges, we introduce Joint Composite Latent Space Bayesian Optimization (JoCo), a novel framework that jointly trains neural network encoders and probabilistic models to adaptively compress high-dimensional input and output spaces into manageable latent representations. This enables viable BO on these compressed representations, allowing JoCo to outperform other state-of-the-art methods in high-dimensional BO on a wide variety of simulated and real-world problems.
翻訳日:2023-11-07 18:59:47 公開日:2023-11-03
# 計算創造性としてのロッククライミング経路生成とグラディング

Rock Climbing Route Generation and Grading as Computational Creativity ( http://arxiv.org/abs/2311.02211v1 )

ライセンス: Link先を確認
Jesse Roberts(参考訳) 本稿では,ロッククライミング経路生成における作業の橋渡しを行い,計算創造性コミュニティに格付けする。 我々は、その文献を列挙し、計算創造性コミュニティにおけるドメインの知的メリットを示すために必要な背景を提供する。 この領域における今後の作業のために、desiderataのガイドセットを提供します。 本稿では,計算経路評価手法を提案する。 最後に,文献における重要なギャップを特定し,その充足方法を検討する。 本稿は,本領域における現在進行中の研究の旗を掲げたパイロット研究としても機能する。

In this paper, we bridge work in rock climbing route generation and grading into the computational creativity community. We provide the necessary background to situate that literature and demonstrate the domain's intellectual merit in the computational creativity community. We provide a guiding set of desiderata for future work in this area. We propose an approach to computational route grading. Finally, we identify important gaps in the literature and consider how they may be filled. This paper thus also serves as a pilot study, planting a flag for our ongoing research in this domain.
翻訳日:2023-11-07 18:59:13 公開日:2023-11-03
# 放射線腫瘍学における自然言語処理技術の紹介と臨床応用のための枠組み

An Introduction to Natural Language Processing Techniques and Framework for Clinical Implementation in Radiation Oncology ( http://arxiv.org/abs/2311.02205v1 )

ライセンス: Link先を確認
Reza Khanmohammadi, Mohammad M. Ghassemi, Kyle Verdecchia, Ahmed I. Ghanem, Luo Bing, Indrin J. Chetty, Hassan Bagher-Ebadian, Farzan Siddiqui, Mohamed Elshaikh, Benjamin Movsas, Kundan Thind(参考訳) 自然言語処理(NLP)は、電子健康記録(EHR)データを利用して診断および予後モデルを構築する医療人工知能(AI)システムを開発するための重要な技術である。 NLPは、構造化されていない臨床テキストをAIアルゴリズムに入力可能な構造化データに変換することができる。 トランスフォーマーアーキテクチャと大規模言語モデル(LLM)の出現は、エンティティ認識、関係抽出、文類似性、テキスト要約、質問応答などの様々な医療タスクにおいて、NLPの顕著な進歩をもたらした。 本稿では,現代NLPモデルを支える主要な技術革新と,放射線腫瘍学研究にLLMを用いる最先端NLPアプリケーションについて概説する。 しかし、これらのLSMは幻覚、偏見、倫理的違反など多くの誤りを起こしやすいため、臨床展開前に厳密な評価と検証が必要である。 そこで本研究では,臨床放射線オンコロジー導入前のNLPモデルの目的と臨床適合性,技術的パフォーマンス,バイアスと信頼,法的および倫理的含意,品質保証に基づく総合的な評価フレームワークを提案する。 本論は, 臨床放射線腫瘍学におけるNLPモデルの開発と利用に関心がある研究者や臨床医に対して, 指導と洞察を提供することを目的とする。

Natural Language Processing (NLP) is a key technique for developing Medical Artificial Intelligence (AI) systems that leverage Electronic Health Record (EHR) data to build diagnostic and prognostic models. NLP enables the conversion of unstructured clinical text into structured data that can be fed into AI algorithms. The emergence of the transformer architecture and large language models (LLMs) has led to remarkable advances in NLP for various healthcare tasks, such as entity recognition, relation extraction, sentence similarity, text summarization, and question answering. In this article, we review the major technical innovations that underpin modern NLP models and present state-of-the-art NLP applications that employ LLMs in radiation oncology research. However, these LLMs are prone to many errors such as hallucinations, biases, and ethical violations, which necessitate rigorous evaluation and validation before clinical deployment. As such, we propose a comprehensive framework for assessing the NLP models based on their purpose and clinical fit, technical performance, bias and trust, legal and ethical implications, and quality assurance, prior to implementation in clinical radiation oncology. Our article aims to provide guidance and insights for researchers and clinicians who are interested in developing and using NLP models in clinical radiation oncology.
翻訳日:2023-11-07 18:58:58 公開日:2023-11-03
# 神経コラージュ伝達:物質操作による芸術的再構築

Neural Collage Transfer: Artistic Reconstruction via Material Manipulation ( http://arxiv.org/abs/2311.02202v1 )

ライセンス: Link先を確認
Ganghun Lee, Minji Kim, Yunsu Lee, Minsu Lee, Byoung-Tak Zhang(参考訳) コラージュは、様々な素材のスクラップをベース単位として単一の画像を構成する創造的な芸術形式である。 画素別生成技術はコラージュスタイルで対象画像を再現することができるが、コラージュ形式のストローク・バイ・ストローク性のため、適切な方法ではない。 ストロークベースのレンダリングのための以前の作品では、まともなスケッチや絵画が制作されたが、コラージュはスタイルとして人気があるにもかかわらず、研究にはあまり関心が寄せられていない。 本稿では,実演やコラージュアートデータを必要としない強化学習によるコラージュ作成の学習法を提案する。 我々は,コラージュマルコフ決定プロセス(MDP)を設計し,エージェントが様々な素材を扱えるようにし,コラージュの高度な力学からエージェントの訓練負担を軽減するためのモデルベースのソフトアクター批判を提案する。 さらに, 対象画像を任意のサイズで処理し, より複雑な領域に比較的多くのスクラップを配置することにより, 審美性を高めるために, 有効物質選択や複雑度に基づくマルチスケールコラージュなどの付加手法を考案した。 実験の結果,トレーニングしたエージェントは,対象画像をコラージュに再生するための材料を適切に選択・ペーストし,画素別生成法よりもコンテンツ・スタイルの評価スコアが高かった。 コードはhttps://github.com/northadventure/CollageRLで入手できる。

Collage is a creative art form that uses diverse material scraps as a base unit to compose a single image. Although pixel-wise generation techniques can reproduce a target image in collage style, it is not a suitable method due to the solid stroke-by-stroke nature of the collage form. While some previous works for stroke-based rendering produced decent sketches and paintings, collages have received much less attention in research despite their popularity as a style. In this paper, we propose a method for learning to make collages via reinforcement learning without the need for demonstrations or collage artwork data. We design the collage Markov Decision Process (MDP), which allows the agent to handle various materials and propose a model-based soft actor-critic to mitigate the agent's training burden derived from the sophisticated dynamics of collage. Moreover, we devise additional techniques such as active material selection and complexity-based multi-scale collage to handle target images at any size and enhance the results' aesthetics by placing relatively more scraps in areas of high complexity. Experimental results show that the trained agent appropriately selected and pasted materials to regenerate the target image into a collage and obtained a higher evaluation score on content and style than pixel-wise generation methods. Code is available at https://github.com/northadventure/CollageRL.
翻訳日:2023-11-07 18:58:06 公開日:2023-11-03
# 模倣ブートストラップ強化学習

Imitation Bootstrapped Reinforcement Learning ( http://arxiv.org/abs/2311.02198v1 )

ライセンス: Link先を確認
Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh(参考訳) 強化学習(RL)のかなりの可能性にもかかわらず、ロボット制御タスクはより優れたサンプル効率のため、主に模倣学習(IL)に依存している。 しかし、大規模なデモンストレーション収集のコストが高いことから、RLは効率的な自律的自己改善のために限られた模倣データを利用することができるといまだに魅力的である。 デモを利用する既存のrlメソッドは、デモでリプレイバッファを初期化し、rlトレーニング中にオーバーサンプルするか、最新のilメソッドの一般化の恩恵を受けないか、デモでilでrlポリシーを事前トレーニングするかのどちらかで、rlの微調整中に壊滅的なリプレイバッファを忘れるのを防ぐ追加のメカニズムを必要とする。 提案手法は,実演数限定でILポリシーを訓練し,オンライン探索と目標値ブートストラップのための代替行動を提案する新しいフレームワークである,模倣ブートストラップ型強化学習(IBRL)を提案する。 IBRLは、画素から直接学習しながらシミュレーションにおいて、7つのスパース報酬連続制御タスクに対して、SoTA性能とサンプル効率を達成する。 我々の方法のハイライトとして、ILBLはRLPDよりも6.4\times$高い成功率を実現しています。これは、ロボミミックベンチマークの挑戦的なPickPlaceCanタスクにおいて、10のデモと100Kのインタラクションの予算の下で、デモをオーバーサンプリングするアイデアと現代的なRLの改善を組み合わせた強力なメソッドです。

Despite the considerable potential of reinforcement learning (RL), robotics control tasks predominantly rely on imitation learning (IL) owing to its better sample efficiency. However, given the high cost of collecting extensive demonstrations, RL is still appealing if it can utilize limited imitation data for efficient autonomous self-improvement. Existing RL methods that utilize demonstrations either initialize the replay buffer with demonstrations and oversample them during RL training, which does not benefit from the generalization potential of modern IL methods, or pretrain the RL policy with IL on the demonstrations, which requires additional mechanisms to prevent catastrophic forgetting during RL fine-tuning. We propose imitation bootstrapped reinforcement learning (IBRL), a novel framework that first trains an IL policy on a limited number of demonstrations and then uses it to propose alternative actions for both online exploration and target value bootstrapping. IBRL achieves SoTA performance and sample efficiency on 7 challenging sparse reward continuous control tasks in simulation while learning directly from pixels. As a highlight of our method, IBRL achieves $6.4\times$ higher success rate than RLPD, a strong method that combines the idea of oversampling demonstrations with modern RL improvements, under the budget of 10 demos and 100K interactions in the challenging PickPlaceCan task in the Robomimic benchmark.
翻訳日:2023-11-07 18:57:30 公開日:2023-11-03
# 弱い相互作用を持つフロケ回路における局所化と積分性破壊

Localization and integrability breaking in weakly interacting Floquet circuits ( http://arxiv.org/abs/2311.02197v1 )

ライセンス: Link先を確認
Dominik Hahn, Luis Colmenarez(参考訳) 本稿では,非相互作用量子ビット,自由伝播,ジェネリック相互作用,二重単位ダイナミクスを補間できるFloquet回路群を提案する。 2ビットゲートの作用素エンタングルメントエントロピーを相互作用強度の優れた定量的尺度として同定する。 本研究では,非相互作用点近傍における局所化の持続性を,スペクトル統計,自己相関器の崩壊,絡み合い成長の測定により検証する。 有限サイズ解析は、多体局在状態が熱力学的極限に持続しないことを示唆している。 その代わり、我々の結果は統合可能性破壊現象と互換性がある。

We present a family of Floquet circuits that can interpolate between non-interacting qubits, free propagation, generic interacting, and dual-unitary dynamics. We identify the operator entanglement entropy of the two-qubit gate as a good quantitative measure of the interaction strength. We test the persistence of localization in the vicinity of the non-interacting point by probing spectral statistics, decay of autocorrelators, and measuring entanglement growth. The finite-size analysis suggests that the many-body localized regime does not persist in the thermodynamic limit. Instead, our results are compatible with an integrability-breaking phenomenon.
翻訳日:2023-11-07 18:57:03 公開日:2023-11-03
# alberdice: 交互定常分布補正推定によるオフラインマルチエージェントrlにおける分散ジョイントアクションの解決

AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation ( http://arxiv.org/abs/2311.02194v1 )

ライセンス: Link先を確認
Daiki E. Matsunaga, Jongmin Lee, Jaeseok Yoon, Stefanos Leonardos, Pieter Abbeel, Kee-Eung Kim(参考訳) オフライン強化学習(rl)における大きな課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。 これはしばしば、ポリシー改善中の分散(ood)アクションを避けることで対処され、その存在が実質的なパフォーマンス低下につながる可能性がある。 この課題は、結合アクション空間がエージェント数で指数関数的に増加するため、オフラインマルチエージェントrl(marl)設定において増幅される。 このような次元性の呪いを避けるため、既存のMARL法では、値分解法または個別エージェントの完全分散トレーニングを採用する。 しかし、標準的な保守主義の原則と組み合わせても、これらの手法はオフラインMARLにおけるOOD共同動作の選択につながる。 そこで本研究では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムであるAlberDICEを紹介する。 AlberDICEは、1つのエージェントの最良の応答を計算し、OOD関節動作の選択を効果的に回避することで、MARLの指数関数的複雑性を回避する。 理論的には、交互最適化手順がnashポリシーに収束することを示す。 実験では、alberdiceがmarlベンチマークの標準スイートでベースラインアルゴリズムを大きく上回っていることを実証する。

One of the main challenges in offline Reinforcement Learning (RL) is the distribution shift that arises from the learned policy deviating from the data collection policy. This is often addressed by avoiding out-of-distribution (OOD) actions during policy improvement as their presence can lead to substantial performance degradation. This challenge is amplified in the offline Multi-Agent RL (MARL) setting since the joint action space grows exponentially with the number of agents. To avoid this curse of dimensionality, existing MARL methods adopt either value decomposition methods or fully decentralized training of individual agents. However, even when combined with standard conservatism principles, these methods can still result in the selection of OOD joint actions in offline MARL. To this end, we introduce AlberDICE, an offline MARL algorithm that alternatively performs centralized training of individual agents based on stationary distribution optimization. AlberDICE circumvents the exponential complexity of MARL by computing the best response of one agent at a time while effectively avoiding OOD joint action selection. Theoretically, we show that the alternating optimization procedure converges to Nash policies. In the experiments, we demonstrate that AlberDICE significantly outperforms baseline algorithms on a standard suite of MARL benchmarks.
翻訳日:2023-11-07 18:56:54 公開日:2023-11-03
# 言語モデルを用いた知識コモンズとコンテキスト統合(GKC-CI)プライバシポリシアノテーションの自動化

Automating Governing Knowledge Commons and Contextual Integrity (GKC-CI) Privacy Policy Annotations with Large Language Models ( http://arxiv.org/abs/2311.02192v1 )

ライセンス: Link先を確認
Jake Chanenson, Madison Pickering, Noah Apthorpe(参考訳) プライバシーポリシーテキストにおける文脈整合性(CI)と知識共通性(GKC)パラメータの同定は、規範的プライバシー分析を促進する。 しかし、gkc-ciアノテーションは、マニュアルまたはクラウドソースの作業を必要とする。 本稿では,大規模言語モデルを用いて,プライバシーポリシーの高精度なGKC-CIパラメータアノテーションを自動実行できることを実証する。 我々は16の根拠となる真実のプライバシポリシから,21,588 GKC-CIアノテーション上に18のオープンソースおよびプロプライエタリなモデルを微調整する。 プライバシポリシテキストの複雑さやGKC-CIアノテーションタスクのニュアンスにもかかわらず,私たちの最高のパフォーマンスモデル(ファインチューニングによるGPT-3.5ターボ)の精度は,クラウドソーシングのアプローチよりも86%高い。 データ探索のためのGKC-CIアノテーションのスケーリングの有効性を実証し、私たちの最高のパフォーマンスモデルを164の人気のオンラインサービスからのプライバシポリシーに適用する。 私たちはすべての注釈付きポリシーとトレーニングデータとスクリプトを作成し、将来の研究のために最高のパフォーマンスモデルを公開できるようにしています。

Identifying contextual integrity (CI) and governing knowledge commons (GKC) parameters in privacy policy texts can facilitate normative privacy analysis. However, GKC-CI annotation has heretofore required manual or crowdsourced effort. This paper demonstrates that high-accuracy GKC-CI parameter annotation of privacy policies can be performed automatically using large language models. We fine-tune 18 open-source and proprietary models on 21,588 GKC-CI annotations from 16 ground truth privacy policies. Our best-performing model (fine-tuned GPT-3.5 Turbo with prompt engineering) has an accuracy of 86%, exceeding the performance of prior crowdsourcing approaches despite the complexity of privacy policy texts and the nuance of the GKC-CI annotation task. We apply our best-performing model to privacy policies from 164 popular online services, demonstrating the effectiveness of scaling GKC-CI annotation for data exploration. We make all annotated policies as well as the training data and scripts needed to fine-tune our best-performing model publicly available for future research.
翻訳日:2023-11-07 18:56:33 公開日:2023-11-03
# SparsePoser:スパースデータによるリアルタイムフルボディ運動再構成

SparsePoser: Real-time Full-body Motion Reconstruction from Sparse Data ( http://arxiv.org/abs/2311.02191v1 )

ライセンス: Link先を確認
Jose Luis Ponton, Haoran Yun, Andreas Aristidou, Carlos Andujar, Nuria Pelechano(参考訳) バーチャルリアリティ(VR)とエンターテイメントアプリケーションにおけるフルボディアバターの自然な相互作用を生み出すためには、正確で信頼性の高い人間のモーション再構成が不可欠である。 Metaverseやソーシャルアプリケーションが普及するにつれて、ユーザは、商用のモーションキャプチャシステムに匹敵する品質のフルボディアニメーションを作るための費用効率の高いソリューションを求めている。 しかし、安価なソリューションを提供するためには、被験者の身体に装着されるセンサーの数を最小限に抑えることが重要である。 残念なことに、スパースデータから全身のポーズを再構築することは、非常に未決定の問題である。 IMUセンサーを用いたいくつかの研究は、ポーズの位置的ドリフトとあいまいさによるポーズの再構築の課題に直面している。 近年、一部の主流VRシステムは、位置情報と回転情報を提供する6-of-freedom (6-DoF)追跡デバイスをリリースしている。 しかしながら、フルボディのポーズを再構成するほとんどの解は伝統的な逆キネマティクス(英語版)(IK)の解に依存しており、しばしば非連続的かつ不自然なポーズを生成する。 本稿では,6台の追跡装置の縮小セットから全身ポーズを再構成する深層学習型ソリューションであるsparseposerを紹介する。 本システムでは,人間のモーション多様体をモーションキャプチャデータから学習することにより,高品質な人間のポーズを合成する畳み込み型オートエンコーダを組み込んだ。 次に、複数の軽量フィードフォワードニューラルネットワークを用いて学習したIK成分を用いて、手と足を対応するトラッカーに向かって調整する。 公開モーションキャプチャデータセットとリアルタイムライブデモを用いて,提案手法を広範囲に評価した。 本手法は,IMUセンサや6-DoFトラッキングデバイスを用いた最先端技術よりも優れており,身体の寸法や比率の異なるユーザに対して有効であることを示す。

Accurate and reliable human motion reconstruction is crucial for creating natural interactions of full-body avatars in Virtual Reality (VR) and entertainment applications. As the Metaverse and social applications gain popularity, users are seeking cost-effective solutions to create full-body animations that are comparable in quality to those produced by commercial motion capture systems. In order to provide affordable solutions, though, it is important to minimize the number of sensors attached to the subject's body. Unfortunately, reconstructing the full-body pose from sparse data is a heavily under-determined problem. Some studies that use IMU sensors face challenges in reconstructing the pose due to positional drift and ambiguity of the poses. In recent years, some mainstream VR systems have released 6-degree-of-freedom (6-DoF) tracking devices providing positional and rotational information. Nevertheless, most solutions for reconstructing full-body poses rely on traditional inverse kinematics (IK) solutions, which often produce non-continuous and unnatural poses. In this article, we introduce SparsePoser, a novel deep learning-based solution for reconstructing a full-body pose from a reduced set of six tracking devices. Our system incorporates a convolutional-based autoencoder that synthesizes high-quality continuous human poses by learning the human motion manifold from motion capture data. Then, we employ a learned IK component, made of multiple lightweight feed-forward neural networks, to adjust the hands and feet toward the corresponding trackers. We extensively evaluate our method on publicly available motion capture datasets and with real-time live demos. We show that our method outperforms state-of-the-art techniques using IMU sensors or 6-DoF tracking devices, and can be used for users with different body dimensions and proportions.
翻訳日:2023-11-07 18:56:13 公開日:2023-11-03
# 情報資源としてのテンソル

The Tensor as an Informational Resource ( http://arxiv.org/abs/2311.02190v1 )

ライセンス: Link先を確認
Matthias Christandl(参考訳) テンソル(tensor)は、データを格納し、計算関係をエンコードし、量子の絡み合いを表す多次元数の配列である。 この意味でテンソルは、変換によってデータ、計算複雑性、量子情報の構造の理解につながる貴重な資源と見なすことができる。 このリソースの理解を容易にするために,テンソル上の情報理論的に構築された事前順序の族を提案し,テンソル同士を比較し,それらの間の変換の存在を評価する。 この構成は、与えられたテンソルのコピーをハイパーグラフの端に置き、頂点での変換を可能にする。 事前順序は、与えられた成長するハイパーグラフ列で可能な変換によって誘導される。 新しい事前順序の族は、行列乗算の計算複雑性を研究するためにストラッセンが定義した漸近的制限事前順序を一般化する。 我々は、プレオーダーとそのテンソル階数に関する漸近的概念の一般的性質を導き、この統一フレームにおけるテンソル階数非付加性、テンソルネットワークおよび代数的複雑性に関する最近の結果を見る。 この研究は、応用数学、物理学、計算機科学におけるテンソルの探索に有用であり、純粋に数学的な観点からも役立つことを願っている。

A tensor is a multidimensional array of numbers that can be used to store data, encode a computational relation and represent quantum entanglement. In this sense a tensor can be viewed as valuable resource whose transformation can lead to an understanding of structure in data, computational complexity and quantum information. In order to facilitate the understanding of this resource, we propose a family of information-theoretically constructed preorders on tensors, which can be used to compare tensors with each other and to assess the existence of transformations between them. The construction places copies of a given tensor at the edges of a hypergraph and allows transformations at the vertices. A preorder is then induced by the transformations possible in a given growing sequence of hypergraphs. The new family of preorders generalises the asymptotic restriction preorder which Strassen defined in order to study the computational complexity of matrix multiplication. We derive general properties of the preorders and their associated asymptotic notions of tensor rank and view recent results on tensor rank non-additivity, tensor networks and algebraic complexity in this unifying frame. We hope that this work will provide a useful vantage point for exploring tensors in applied mathematics, physics and computer science, but also from a purely mathematical point of view.
翻訳日:2023-11-07 18:55:45 公開日:2023-11-03
# fairseg: 公正なエラーバウンドスケーリングによるフェアネス学習のための大規模医用画像分割データセット

FairSeg: A Large-scale Medical Image Segmentation Dataset for Fairness Learning with Fair Error-Bound Scaling ( http://arxiv.org/abs/2311.02189v1 )

ライセンス: Link先を確認
Yu Tian and Min Shi and Yan Luo and Ava Kouhana and Tobias Elze and Mengyu Wang(参考訳) 人工知能モデルの公正さは、特に医学領域において、人々の幸福と生活にとって医療モデルの公正さが不可欠であるため、近年、注目されている。 フェアネス学習研究を促進するためには、高品質な医療フェアネスデータセットが必要である。 既存の医療用フェアネスデータセットはすべて分類作業のためであり、医療用セグメンテーションにはフェアネスデータセットは使用できないが、医療用セグメンテーションは分類として同等に重要な臨床課題であり、臨床医が評価できる臓器異常の詳細な空間情報を提供することができる。 本稿では,FairSegという医療セグメント化のための最初のフェアネスデータセットを提案する。 さらに,各ID群における上位エラーバウンドで損失関数を再重み付けする,公平な誤差バウンドスケーリング手法を提案する。 各アイデンティティグループで高いトレーニングエラーでハードケースに明示的に対処することで、セグメンテーション性能のエクイティを向上できると予想する。 公平な比較を容易にするため, グループDice係数の標準偏差を1つずつ除いた全体のDice係数として計算される, 株式スケールDice係数のような新しいエクイティスケールセグメンテーション性能指標を提案する。 総合的な実験を通して、我々の公正なエラーバウンドスケーリングアプローチは、最先端の公正学習モデルよりも優れているか同等の公平性性能を持つことを示した。 データセットとコードは、 \url{https://github.com/Harvard-Ophthalmology-AI-Lab/FairSeg}を介して公開されている。

Fairness in artificial intelligence models has gained significantly more attention in recent years, especially in the area of medicine, as fairness in medical models is critical to people's well-being and lives. High-quality medical fairness datasets are needed to promote fairness learning research. Existing medical fairness datasets are all for classification tasks, and no fairness datasets are available for medical segmentation, while medical segmentation is an equally important clinical task as classifications, which can provide detailed spatial information on organ abnormalities ready to be assessed by clinicians. In this paper, we propose the first fairness dataset for medical segmentation named FairSeg with 10,000 subject samples. In addition, we propose a fair error-bound scaling approach to reweight the loss function with the upper error-bound in each identity group. We anticipate that the segmentation performance equity can be improved by explicitly tackling the hard cases with high training errors in each identity group. To facilitate fair comparisons, we propose new equity-scaled segmentation performance metrics, such as the equity-scaled Dice coefficient, which is calculated as the overall Dice coefficient divided by one plus the standard deviation of group Dice coefficients. Through comprehensive experiments, we demonstrate that our fair error-bound scaling approach either has superior or comparable fairness performance to the state-of-the-art fairness learning models. The dataset and code are publicly accessible via \url{https://github.com/Harvard-Ophthalmology-AI-Lab/FairSeg}.
翻訳日:2023-11-07 18:55:23 公開日:2023-11-03
# 雑音画像の超解法に基づく学習と品質保存

Learning-Based and Quality Preserving Super-Resolution of Noisy Images ( http://arxiv.org/abs/2311.02254v1 )

ライセンス: Link先を確認
Simone Cammarasana, Giuseppe Patan\`e(参考訳) いくつかの応用では、ノイズ画像の超解像と幾何学的およびテクスチャ的特徴の保存が必要である。 最先端の超解像法はノイズを考慮せず、一般的に出力画像のアーティファクト(エイリアス、ぼやけなど)を強化する。 本稿では,ノイズの存在を考慮し,定量的な測定値(正規化相互相関,正規化平均二乗誤差,ピーク信号-雑音分割,構造的類似性,普遍的画像品質など)によって入力画像の特性を保存する学習ベース手法を提案する。 我々は,その特性を保ちながら低解像度ノイズ像をアップサンプリングするようにネットワークを訓練する。 我々は、cineca marconi100クラスタでテストを行い、トップ500の26位でテストを行った。 実験の結果,本手法は学習手法よりも優れ,標準手法と同等の結果を示し,入力画像の特性を輪郭,明るさ,テクスチャとして保存し,人工物を減らす。 平均的な定量的指標として、2倍のアップサンプリング係数を持つガウス雑音像の超解像上でのPSNR値は23.81である。 対照的に、以前の研究ではPSNR値は23.09(標準法)と21.78(学習法)であった。 学習ベースおよび品質保存型スーパーレゾリューションは,ノイズタイプやアップサンプリング係数の異なる最先端手法に対して,ノイズ画像の高分解能予測を改善する。

Several applications require the super-resolution of noisy images and the preservation of geometrical and texture features. State-of-the-art super-resolution methods do not account for noise and generally enhance the output image's artefacts (e.g., aliasing, blurring). We propose a learning-based method that accounts for the presence of noise and preserves the properties of the input image, as measured by quantitative metrics (e.g., normalised crossed correlation, normalised mean squared error, peak-signal-to-noise-ration, structural similarity feature-based similarity, universal image quality). We train our network to up-sample a low-resolution noisy image while preserving its properties. We perform our tests on the Cineca Marconi100 cluster, at the 26th position in the top500 list. The experimental results show that our method outperforms learning-based methods, has comparable results with standard methods, preserves the properties of the input image as contours, brightness, and textures, and reduces the artefacts. As average quantitative metrics, our method has a PSNR value of 23.81 on the super-resolution of Gaussian noise images with a 2X up-sampling factor. In contrast, previous work has a PSNR value of 23.09 (standard method) and 21.78 (learning-based method). Our learning-based and quality-preserving super-resolution improves the high-resolution prediction of noisy images with respect to state-of-the-art methods with different noise types and up-sampling factors.
翻訳日:2023-11-07 18:48:23 公開日:2023-11-03
# 比較知識蒸留

Comparative Knowledge Distillation ( http://arxiv.org/abs/2311.02253v1 )

ライセンス: Link先を確認
Alex Wilf, Alex Tianyi Xu, Paul Pu Liang, Alexander Obolenskiy, Daniel Fried, Louis-Philippe Morency(参考訳) 大規模事前学習モデルの時代には、知識蒸留(KD)は、計算的に重い教師モデルの知恵を軽量で効率的な学生モデルに伝達し、性能を保ちながら重要な役割を果たす。 しかし、伝統的なkdパラダイムは、頻繁に推論するために教師モデルに容易にアクセスできることを想定している。 このギャップに対処するため、本稿では、Few Teacher Inference Knowledge Distillation (FTI KD) という設定で、KDにおける教師モデル推論への依存を最小限にする方法を検討する。 我々は,この制約された環境では,KD技術が普及し,技術データ拡張戦略の状況が不足しているのを観察する。 比較を通して学習を強調する教育原理からインスピレーションを得て,教師モデルにおけるサンプルの解釈の微妙な違いを理解することを学生モデルに促す比較知識蒸留(CKD)を提案する。 批判的に、CKDは追加の教師呼び出しを行わずに、生徒に追加の学習信号を提供する。 また、CKDの原理をサンプル群にまで拡張し、限られた教師の呼び出しからより効率的な学習を可能にする。 様々な実験環境における実験的評価は、CKDがアートデータ拡張およびKD技術の状態を一貫して上回っていることを示している。

In the era of large scale pretrained models, Knowledge Distillation (KD) serves an important role in transferring the wisdom of computationally heavy teacher models to lightweight, efficient student models while preserving performance. Traditional KD paradigms, however, assume readily available access to teacher models for frequent inference -- a notion increasingly at odds with the realities of costly, often proprietary, large scale models. Addressing this gap, our paper considers how to minimize the dependency on teacher model inferences in KD in a setting we term Few Teacher Inference Knowledge Distillation (FTI KD). We observe that prevalent KD techniques and state of the art data augmentation strategies fall short in this constrained setting. Drawing inspiration from educational principles that emphasize learning through comparison, we propose Comparative Knowledge Distillation (CKD), which encourages student models to understand the nuanced differences in a teacher model's interpretations of samples. Critically, CKD provides additional learning signals to the student without making additional teacher calls. We also extend the principle of CKD to groups of samples, enabling even more efficient learning from limited teacher calls. Empirical evaluation across varied experimental settings indicates that CKD consistently outperforms state of the art data augmentation and KD techniques.
翻訳日:2023-11-07 18:47:59 公開日:2023-11-03
# 集中治療室(ICU)における患者視力評価のためのウェアラブルセンサの可能性

The Potential of Wearable Sensors for Assessing Patient Acuity in Intensive Care Unit (ICU) ( http://arxiv.org/abs/2311.02251v1 )

ライセンス: Link先を確認
Jessica Sena, Mohammad Tahsin Mostafiz, Jiaqing Zhang, Andrea Davidson, Sabyasachi Bandyopadhyay, Ren Yuanfang, Tezcan Ozrazgat-Baslanti, Benjamin Shickel, Tyler Loftus, William Robson Schwartz, Azra Bihorac and Parisa Rashidi(参考訳) acuity assessmentsは、タイムリーな介入と公平なリソース割り当てを提供するために、重要なケア設定において不可欠である。 従来の明度スコアは、生理状態のマニュアルアセスメントとドキュメントに依存しており、医療提供者にとって時間がかかり、断続的であり、使いづらい。 また、これらのスコアには患者の移動度などの粒度情報が含まれておらず、icuの回復や劣化を示す。 既存の明度スコアは、Electronic Health Records(EHR)とウェアラブルセンサーデータと組み合わせて人工知能(AI)技術を用いることで、潜在的に改善できると仮定した。 本研究では,手首の加速度計から収集したモビリティデータとEHRから得られた臨床データとを統合してAIによる明度評価スコアを作成することによる影響について検討した。 手首に加速度計を装着した86人の患者から, 加速度計測データを収集した。 データは、vgg、resnet、mobilenet、spepernet、カスタムトランスフォーマーネットワークの5つのディープニューラルネットワークモデルを用いて分析された。 これらのモデルは、特に精度、感度、F1スコアに関して、基準基準として使用されるルールベースの臨床スコア(SOFA=Sequential Organ Failure Assessment)を上回った。 その結果、加速度計データのみに依存するモデルが限られた性能(AUC 0.50, Precision 0.61, F1-score 0.68)を達成する一方で、加速度計データによる人口統計情報を含む性能が顕著に向上した(AUC 0.69, Precision 0.75, F1-score 0.67)。 本研究は, 移動度と患者情報の組み合わせが, 重症患者の安定状態と不安定状態の区別に有効であることを示す。

Acuity assessments are vital in critical care settings to provide timely interventions and fair resource allocation. Traditional acuity scores rely on manual assessments and documentation of physiological states, which can be time-consuming, intermittent, and difficult to use for healthcare providers. Furthermore, such scores do not incorporate granular information such as patients' mobility level, which can indicate recovery or deterioration in the ICU. We hypothesized that existing acuity scores could be potentially improved by employing Artificial Intelligence (AI) techniques in conjunction with Electronic Health Records (EHR) and wearable sensor data. In this study, we evaluated the impact of integrating mobility data collected from wrist-worn accelerometers with clinical data obtained from EHR for developing an AI-driven acuity assessment score. Accelerometry data were collected from 86 patients wearing accelerometers on their wrists in an academic hospital setting. The data was analyzed using five deep neural network models: VGG, ResNet, MobileNet, SqueezeNet, and a custom Transformer network. These models outperformed a rule-based clinical score (SOFA= Sequential Organ Failure Assessment) used as a baseline, particularly regarding the precision, sensitivity, and F1 score. The results showed that while a model relying solely on accelerometer data achieved limited performance (AUC 0.50, Precision 0.61, and F1-score 0.68), including demographic information with the accelerometer data led to a notable enhancement in performance (AUC 0.69, Precision 0.75, and F1-score 0.67). This work shows that the combination of mobility and patient information can successfully differentiate between stable and unstable states in critically ill patients.
翻訳日:2023-11-07 18:47:39 公開日:2023-11-03
# 在宅高齢者の身体活動のモニタリング

Monitoring Inactivity of Single Older Adults at Home ( http://arxiv.org/abs/2311.02249v1 )

ライセンス: Link先を確認
Longfei Chen, Robert B. Fisher(参考訳) 高齢者の家庭における移動の欠如をリアルタイムにモニタリングする新しい応用法が提案されている。 rgb-dカメラと小型コンピュータプロセッサをベースとする軽量カメラ監視システムは、高齢者の日常行動を監視するためにコミュニティホームで開発、試験された。 身体不活性の事例は, 日常のシナリオにおいて, 匿名で無害に検出された。 これらの出来事は、意識の喪失や生理学的な低下など、より高いレベルで説明することができる。 不活性モニタリングシステムの精度を評価し、高齢者の日常生活行動に関連する不活性事象の統計情報を提供する。 その結果, 室内照明, テレビフレッカリング, 様々なカメラビューなど, 様々な環境において, 不活性検出を正確に行うことができた。

A new application for real-time monitoring of the lack of movement in older adults' own homes is proposed, aiming to support people's lives and independence in their later years. A lightweight camera monitoring system, based on an RGB-D camera and a compact computer processor, was developed and piloted in community homes to observe the daily behavior of older adults. Instances of body inactivity were detected in everyday scenarios anonymously and unobtrusively. These events can be explained at a higher level, such as a loss of consciousness or physiological deterioration. The accuracy of the inactivity monitoring system is assessed, and statistics of inactivity events related to the daily behavior of the older adults are provided. The results demonstrate that our method performs accurately in inactivity detection across various environments, including low room lighting, TV flickering, and different camera views.
翻訳日:2023-11-07 18:47:04 公開日:2023-11-03
# COSMIC:音声インテクスト学習のためのデータ効率の良いインストラクションチューニング

COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning ( http://arxiv.org/abs/2311.02248v1 )

ライセンス: Link先を確認
Jing Pan, Jian Wu, Yashesh Gaur, Sunit Sivasankaran, Zhuo Chen, Shujie Liu, Jinyu Li(参考訳) 大規模言語モデル(LLM)に音声モダリティを組み込むためのデータと費用効率のよい方法を提案する。 結果として得られたマルチモーダルllmは、インストラクションフォロー/インコンテキスト学習機能を備えたコンテキスト音声モデルである。 命令チューニングの監督の一環として、音声転写に基づいてgpt-3.5を用いて音声理解テスト質問応答(sqa)ペアを生成する。 20M未満のトレーニング可能なパラメータと、SQA生成のための450時間の英語音声データにより、COSMICは、音声からテキストへのタスクにおいて、創発的な命令追従およびテキスト内学習能力を示す。 モデルは与えられたテキスト命令に従って、ゼロショット設定で未確認のEN$\to$X音声テキスト変換(S2TT)タスクでもテキスト応答を生成することができる。 EN$\to$X S2TT や少数ショットドメイン適応など,様々なタスクを通じて,モデルのコンテキスト内学習を評価する。 命令追従能力は文脈バイアスベンチマークによって評価される。 本研究は,LLM構築のための低コストレシピの有効性と,新たな指導訓練データを用いて検証した。

We present a data and cost efficient way of incorporating the speech modality into a large language model (LLM). The resulting multi-modal LLM is a COntextual Speech Model with Instruction-following/in-context-learning Capabilities - COSMIC. Speech comprehension test question-answer (SQA) pairs are generated using GPT-3.5 based on the speech transcriptions as a part of the supervision for the instruction tuning. With fewer than 20M trainable parameters and as little as 450 hours of English speech data for SQA generation, COSMIC exhibits emergent instruction-following and in-context learning capabilities in speech-to-text tasks. The model is able to follow the given text instructions to generate text response even on the unseen EN$\to$X speech-to-text translation (S2TT) task with zero-shot setting. We evaluate the model's in-context learning via various tasks such as EN$\to$X S2TT and few-shot domain adaptation. And instruction-following capabilities are evaluated through a contextual biasing benchmark. Our results demonstrate the efficacy of the proposed low cost recipe for building a speech LLM and that with the new instruction-tuning data.
翻訳日:2023-11-07 18:46:52 公開日:2023-11-03
# prism: シーングラフに基づく画像操作のためのプログレッシブ復元

PRISM: Progressive Restoration for Scene Graph-based Image Manipulation ( http://arxiv.org/abs/2311.02247v1 )

ライセンス: Link先を確認
Pavel Jahoda, Azade Farshad, Yousef Yeganeh, Ehsan Adeli, Nassir Navab(参考訳) シーングラフは、画像生成と操作タスクの正確な記述的先行として登場したが、データ中のオブジェクトの形状と関係の複雑さと多様性は、それらをモデルに組み込んで高品質な結果を生成するのを困難にしている。 これらの課題に対処するため,我々は,シーン内の操作領域の精度と品質を向上させるための,新しいプログレッシブマルチヘッド画像操作手法であるprismを提案する。 画像操作フレームワークは、マスク付き領域を段階的に外側から内側へ切り離す、エンドツーエンドのマスク付き再構成プロキシタスクを用いて訓練される。 我々は、シーンのコンテキストと直接相関するので、マスク領域の外側の利点を生かしている。 さらに,このマルチヘッドアーキテクチャは画像全体に加えて,詳細なオブジェクト固有領域を同時に生成し,高品質な画像を生成する。 我々のモデルは,CLEVRおよびVisual Genomeデータセットのセマンティックイメージ操作タスクにおいて,最先端の手法よりも優れている。 本研究は,シーングラフに基づく画像操作の品質と精度を向上させるための手法の可能性を示す。

Scene graphs have emerged as accurate descriptive priors for image generation and manipulation tasks, however, their complexity and diversity of the shapes and relations of objects in data make it challenging to incorporate them into the models and generate high-quality results. To address these challenges, we propose PRISM, a novel progressive multi-head image manipulation approach to improve the accuracy and quality of the manipulated regions in the scene. Our image manipulation framework is trained using an end-to-end denoising masked reconstruction proxy task, where the masked regions are progressively unmasked from the outer regions to the inner part. We take advantage of the outer part of the masked area as they have a direct correlation with the context of the scene. Moreover, our multi-head architecture simultaneously generates detailed object-specific regions in addition to the entire image to produce higher-quality images. Our model outperforms the state-of-the-art methods in the semantic image manipulation task on the CLEVR and Visual Genome datasets. Our results demonstrate the potential of our approach for enhancing the quality and precision of scene graph-based image manipulation.
翻訳日:2023-11-07 18:46:33 公開日:2023-11-03
# 公平な回帰におけるカバレッジの平等な機会

Equal Opportunity of Coverage in Fair Regression ( http://arxiv.org/abs/2311.02243v1 )

ライセンス: Link先を確認
Fangxin Wang, Lu Cheng, Ruocheng Guo, Kay Liu, Philip S. Yu(参考訳) 予測的不確実性の下で公正な機械学習(ml)を研究し、信頼できる信頼できる意思決定を可能にした。 「平等なカバレッジ」の初歩的な研究は不確実性を意識した公平性の概念を提案した。 しかし、より細かなグループ(例えば、低所得の女性)に対して、真のラベルを条件付けして同じカバレッジ率を保証せず、不確実性の評価に偏っている。 これらの制限に対処するために,(1)類似した結果の異なるグループに対するカバレッジ率が近いこと,(2)人口全体のカバレッジ率が所定の水準にあること,の2つの特性を達成することを目的とした,新たな不確実性を認識した公平性 (eoc) を提案する。 さらに、予測間隔を狭くして情報化すべきである。 本研究では,任意の学習MLモデルに対して適切な幅でEOCを改善するために,分布のない後処理法であるBinned Fair Quantile Regression (BFQR)を提案する。 まず、EOCから逸脱を束縛するためにホールドアウトセットを校正し、続いてコンフォーマル予測を利用してテストセット上でEOCを維持する。 実験の結果,EOC改善における本手法の有効性が示された。 私たちのコードはhttps://github.com/fangxin-wang/bfqrで公開しています。

We study fair machine learning (ML) under predictive uncertainty to enable reliable and trustworthy decision-making. The seminal work of ``equalized coverage'' proposed an uncertainty-aware fairness notion. However, it does not guarantee equal coverage rates across more fine-grained groups (e.g., low-income females) conditioning on the true label and is biased in the assessment of uncertainty. To tackle these limitations, we propose a new uncertainty-aware fairness -- Equal Opportunity of Coverage (EOC) -- that aims to achieve two properties: (1) coverage rates for different groups with similar outcomes are close, and (2) the coverage rate for the entire population remains at a predetermined level. Further, the prediction intervals should be narrow to be informative. We propose Binned Fair Quantile Regression (BFQR), a distribution-free post-processing method to improve EOC with reasonable width for any trained ML models. It first calibrates a hold-out set to bound deviation from EOC, then leverages conformal prediction to maintain EOC on a test set, meanwhile optimizing prediction interval width. Experimental results demonstrate the effectiveness of our method in improving EOC. Our code is publicly available at https://github.com/fangxin-wang/bfqr .
翻訳日:2023-11-07 18:46:14 公開日:2023-11-03
# 集合対話とAIを用いた民主政策開発

Democratic Policy Development using Collective Dialogues and AI ( http://arxiv.org/abs/2311.02242v1 )

ライセンス: Link先を確認
Andrew Konya, Lisa Schirch, Colin Irwin, Aviv Ovadya(参考訳) 我々は、情報公開意思を反映した政策を開発するための効率的な民主的プロセスを設計し、テストする。 このプロセスはAIを利用した集団対話によって、大規模な議論を民主的に実行可能にする。 GPT4ベースのパイプラインは、コンセンサスポイントを、初期ポリシーが組み立てられる代表ポリシー条項に変換する。 最初の政策は、最終投票と評価の前に専門家と一般人の入力によって反復的に洗練される。 我々は、医療アドバイス、ワクチン情報、戦争と紛争に関連するAIアシスタントのためのポリシーガイドラインを米国内で3回テストしている。 1500人以上の参加者が1万ドル程度で2週間でプロセスが実行でき、人口格差にまたがる公共支援の強い政策ガイドラインが作成できる。 政策ガイドライン全体に対する75~81%の支持を測るとともに、年齢、性別、宗教、人種、教育、政党にまたがる人口格差を70~75%に満たない。 全体として、この研究は、AIラボが共通の政策を策定し、統治団体が政治網を破り、外交官が和平交渉を加速するのに役立つと信じているプロセスの、エンドツーエンドの概念実証である。

We design and test an efficient democratic process for developing policies that reflect informed public will. The process combines AI-enabled collective dialogues that make deliberation democratically viable at scale with bridging-based ranking for automated consensus discovery. A GPT4-powered pipeline translates points of consensus into representative policy clauses from which an initial policy is assembled. The initial policy is iteratively refined with the input of experts and the public before a final vote and evaluation. We test the process three times with the US public, developing policy guidelines for AI assistants related to medical advice, vaccine information, and wars & conflicts. We show the process can be run in two weeks with 1500+ participants for around $10,000, and that it generates policy guidelines with strong public support across demographic divides. We measure 75-81% support for the policy guidelines overall, and no less than 70-75% support across demographic splits spanning age, gender, religion, race, education, and political party. Overall, this work demonstrates an end-to-end proof of concept for a process we believe can help AI labs develop common-ground policies, governing bodies break political gridlock, and diplomats accelerate peace deals.
翻訳日:2023-11-07 18:45:51 公開日:2023-11-03
# 機械学習ベンチマークに向けて:顔認識システムにおける個人的アイデンティティの獲得

Towards Machine Unlearning Benchmarks: Forgetting the Personal Identities in Facial Recognition Systems ( http://arxiv.org/abs/2311.02240v1 )

ライセンス: Link先を確認
Dasol Choi, Dongbin Na(参考訳) 機械学習は、分類モデルがトレーニング時間に使用される特定のデータを忘れるための重要なツールである。 近年,様々な研究が機械学習アルゴリズムを提案し,その手法を複数のデータセット上で評価している。 しかし、現在の機械学習アルゴリズムのほとんどは、CIFAR-10、MNIST、SVHNといった従来のコンピュータビジョンデータセットのみに評価されている。 さらに,過去の研究では,授業学習環境におけるアンラーニング手法を概ね評価している。 これまでのほとんどの研究は、まず分類モデルを訓練し、実験で選択された画像クラス(カテゴリ)を忘れることで、機械学習アルゴリズムの機械学習性能を評価する。 残念ながら、これらのクラス学習設定は現実世界のシナリオに一般化しないかもしれない。 本研究では,個人のプライバシ(identity)を含む特定のインスタンスを,与えられたモデルのタスクを維持しながら解き放つことを目的とした,マシンアンラーニング設定を提案する。 具体的には、MUCACとMUFACの2つの機械学習ベンチマークデータセットを提案し、機械学習アルゴリズムの性能と堅牢性を評価するのに非常に有用である。 ベンチマークデータセットでは,顔年齢推定(マルチクラス分類)と顔属性分類(バイナリクラス分類)という顔特徴認識タスクを実行する。 さらに,提案したベンチマークデータセット上での最先端の機械学習手法の性能についても報告する。 すべてのデータセット、ソースコード、トレーニングされたモデルはhttps://github.com/ndb796/MachineUnlearningで公開されている。

Machine unlearning is a crucial tool for enabling a classification model to forget specific data that are used in the training time. Recently, various studies have presented machine unlearning algorithms and evaluated their methods on several datasets. However, most of the current machine unlearning algorithms have been evaluated solely on traditional computer vision datasets such as CIFAR-10, MNIST, and SVHN. Furthermore, previous studies generally evaluate the unlearning methods in the class-unlearning setup. Most previous work first trains the classification models and then evaluates the machine unlearning performance of machine unlearning algorithms by forgetting selected image classes (categories) in the experiments. Unfortunately, these class-unlearning settings might not generalize to real-world scenarios. In this work, we propose a machine unlearning setting that aims to unlearn specific instance that contains personal privacy (identity) while maintaining the original task of a given model. Specifically, we propose two machine unlearning benchmark datasets, MUFAC and MUCAC, that are greatly useful to evaluate the performance and robustness of a machine unlearning algorithm. In our benchmark datasets, the original model performs facial feature recognition tasks: face age estimation (multi-class classification) and facial attribute classification (binary class classification), where a class does not depend on any single target subject (personal identity), which can be a realistic setting. Moreover, we also report the performance of the state-of-the-art machine unlearning methods on our proposed benchmark datasets. All the datasets, source codes, and trained models are publicly available at https://github.com/ndb796/MachineUnlearning.
翻訳日:2023-11-07 18:45:32 公開日:2023-11-03
# Polyp Image Segmentation におけるDUCK-Net の利用

Using DUCK-Net for Polyp Image Segmentation ( http://arxiv.org/abs/2311.02239v1 )

ライセンス: Link先を確認
Razvan-Gabriel Dumitru, Darius Peteleaza, Catalin Craciun(参考訳) 本稿では,少数の医用画像から効果的に学習し,正確なセグメンテーション作業を行うことのできる,新しい教師付き畳み込みニューラルネットワークアーキテクチャ "DUCK-Net" を提案する。 本モデルでは、残差ダウンサンプリング機構とカスタム畳み込みブロックを有するエンコーダ・デコーダ構造を用いて、エンコーダセグメント内の複数の解像度で画像情報をキャプチャおよび処理する。 トレーニングセットを強化するために、データ拡張技術を採用し、モデルのパフォーマンスを高めています。 本研究は,大腸内視鏡画像におけるポリープセグメンテーションに特有な機能を示す。 我々は, ポリプセグメンテーション, Kvasir-SEG, CVC-ClinicDB, CVC-ColonDB, ETIS-LARIBPOLYPDBのベンチマークデータを用いて, 平均Dice係数, Jaccard指数, 精度, リコール, 精度の両面から, 最先端の結果が得られることを示す。 本手法は,限られたトレーニングデータでも優れた性能を実現するための強汎化能力を示す。 コードはGitHubで公開されている。 https://github.com/RazvanDu/DUCK-Net

This paper presents a novel supervised convolutional neural network architecture, "DUCK-Net", capable of effectively learning and generalizing from small amounts of medical images to perform accurate segmentation tasks. Our model utilizes an encoder-decoder structure with a residual downsampling mechanism and a custom convolutional block to capture and process image information at multiple resolutions in the encoder segment. We employ data augmentation techniques to enrich the training set, thus increasing our model's performance. While our architecture is versatile and applicable to various segmentation tasks, in this study, we demonstrate its capabilities specifically for polyp segmentation in colonoscopy images. We evaluate the performance of our method on several popular benchmark datasets for polyp segmentation, Kvasir-SEG, CVC-ClinicDB, CVC-ColonDB, and ETIS-LARIBPOLYPDB showing that it achieves state-of-the-art results in terms of mean Dice coefficient, Jaccard index, Precision, Recall, and Accuracy. Our approach demonstrates strong generalization capabilities, achieving excellent performance even with limited training data. The code is publicly available on GitHub: https://github.com/RazvanDu/DUCK-Net
翻訳日:2023-11-07 18:45:09 公開日:2023-11-03
# 文化遺産における説明可能な著者識別--新しい視点の分析

Explainable Authorship Identification in Cultural Heritage Applications: Analysis of a New Perspective ( http://arxiv.org/abs/2311.02237v1 )

ライセンス: Link先を確認
Mattia Setzu and Silvia Corbara and Anna Monreale and Alejandro Moreo and Fabrizio Sebastiani(参考訳) 近年,aid (computation authorship identification) システムの性能向上に多くの研究が費やされているが,その背景にある理由を説明できるような援助システムの実現には,ほとんど注意が払われていない。 このようなシステムによって返される予測は、適切な説明が得られない限り、ほとんど役に立たないため、AId方法論の実践的利用を著しく妨げている。 本稿では,既存の汎用説明可能な人工知能 (xai) 技術の適用可能性について検討し,文化遺産に携わる研究者への説明に焦点をあてた。 特に, 3つの異なる支援課題(著者属性, 著者性検証, 同一著者性検証)に対する3つの異なるxai手法(特徴ランキング, 調査, 事実性, 反事実選択)の相対的メリットを, 実支援データを用いた実験によって評価した。 分析の結果,これらの手法は,著者名同定に重要な第一歩を踏み出すが,研究者のワークフローにうまく統合できるツールを提供するためには,さらに多くの作業が必要となることがわかった。

While a substantial amount of work has recently been devoted to enhance the performance of computational Authorship Identification (AId) systems, little to no attention has been paid to endowing AId systems with the ability to explain the reasons behind their predictions. This lacking substantially hinders the practical employment of AId methodologies, since the predictions returned by such systems are hardly useful unless they are supported with suitable explanations. In this paper, we explore the applicability of existing general-purpose eXplainable Artificial Intelligence (XAI) techniques to AId, with a special focus on explanations addressed to scholars working in cultural heritage. In particular, we assess the relative merits of three different types of XAI techniques (feature ranking, probing, factuals and counterfactual selection) on three different AId tasks (authorship attribution, authorship verification, same-authorship verification) by running experiments on real AId data. Our analysis shows that, while these techniques make important first steps towards explainable Authorship Identification, more work remains to be done in order to provide tools that can be profitably integrated in the workflows of scholars.
翻訳日:2023-11-07 18:44:46 公開日:2023-11-03
# 領域一般化のための視覚言語モデルのロバスト微調整

Robust Fine-Tuning of Vision-Language Models for Domain Generalization ( http://arxiv.org/abs/2311.02236v1 )

ライセンス: Link先を確認
Kevin Vogt-Lowell, Noah Lee, Theodoros Tsiligkaridis, Marc Vaillant(参考訳) 伝達学習は、様々な下流タスクのモデル間で共通の知識を共有することができるが、従来の手法は限られた訓練データ設定に悩まされ、分散シフトの下で効果的に一般化できない狭いモデルを生成する。 基盤モデルは最近、分散シフト下での印象的なゼロショット推論能力とロバスト性を示している。 しかし、これらのモデルに対するゼロショット評価は主に単純な分布シフトを持つベンチマークに限られており、実際に見られるより現実的なシフトの下では、それらの効果の理解が制限されている。 さらに、これらのモデルの一般的な微調整方法は、トレーニングデータが制限された少数のシナリオにおいて、視覚モデルに対してはまだ評価されていない。 これらのギャップに対処するために,視覚言語基礎モデルクリップを数秒微調整する新しいレシピを提案し,ワイルドスコレクションからの現実的な分散シフトを伴う,挑戦的なベンチマークデータセットの性能評価を行う。 私たちの実験では、ゼロショットのCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットのCLIPの微調整は、トレーニングデータの可用性のあらゆるレベルにおいて、そのビジョンのみのパフォーマンスよりも優れています。 これは、実際のデータで動作する数ショットの学習アプリケーションに基礎モデルを採用するための強力なインセンティブを提供する。 コードは$\href{https://github.com/mit-ll/robust-vision-language-finetuning}{\text{https://github.com/mit-ll/robust-vision-language-finetuning}}$で入手できる。

Transfer learning enables the sharing of common knowledge among models for a variety of downstream tasks, but traditional methods suffer in limited training data settings and produce narrow models incapable of effectively generalizing under distribution shifts. Foundation models have recently demonstrated impressive zero-shot inference capabilities and robustness under distribution shifts. However, zero-shot evaluation for these models has been predominantly confined to benchmarks with simple distribution shifts, limiting our understanding of their effectiveness under the more realistic shifts found in practice. Moreover, common fine-tuning methods for these models have yet to be evaluated against vision models in few-shot scenarios where training data is limited. To address these gaps, we present a new recipe for few-shot fine-tuning of the popular vision-language foundation model CLIP and evaluate its performance on challenging benchmark datasets with realistic distribution shifts from the WILDS collection. Our experimentation demonstrates that, while zero-shot CLIP fails to match performance of trained vision models on more complex benchmarks, few-shot CLIP fine-tuning outperforms its vision-only counterparts in terms of in-distribution and out-of-distribution accuracy at all levels of training data availability. This provides a strong incentive for adoption of foundation models within few-shot learning applications operating with real-world data. Code is available at $\href{https://github.com/mit-ll/robust-vision-language-finetuning}{\text{https://github.com/mit-ll/robust-vision-language-finetuning}}$.
翻訳日:2023-11-07 18:44:24 公開日:2023-11-03
# 行動認識型群衆管理システムに向けて

Towards Behavioral-aware Crowd Management System ( http://arxiv.org/abs/2311.02228v1 )

ライセンス: Link先を確認
Yixin Zhang, Tianyu Zhao, Salma Elmalaki(参考訳) 大群衆による死傷者は継続し、現在の群衆管理プラクティスの既存の制限を強調している。 特筆すべき欠点は、走行速度が遅いために退避するのに余分な時間を必要とする不利な個人に対する供給不足である。 さらに、既存のエスケープ戦略は、群衆の急上昇時に全個人の安全を確保できない可能性がある。 そこで本研究では,2つの群集管理手法を提案する。 第一に,すべての個人の多様なニーズを考慮し,排他性を確保し,潜在的なリスクを緩和する,サージイベント後の公正な避難戦略の実施を提唱する。 第2に,トラジの発生を最小限に抑え,群衆の分散性を高めるために,アトラクション位置の調整と大規模イベントにおけるステージ演出の切り替えを含む予防的アプローチを提案する。 提案手法の有効性を評価するために,高忠実度群集管理シミュレータを用いた。 本研究は, 公正避難戦略が安全対策および傾斜度に及ぼす影響を実証し, 平均41.8%の公正度向上効果を示した。 さらに、アトラクションの位置やステージパフォーマンスの調整により、平均して34%の急上昇の発生率が大幅に減少し、群衆全体の安全が向上した。

Instances of casualties resulting from large crowds persist, highlighting the existing limitations of current crowd management practices. One notable drawback is the insufficient provision for disadvantaged individuals who may require additional time to evacuate due to their slower running speed. Moreover, the existing escape strategies may fall short of ensuring the safety of all individuals during a crowd surge. To address these pressing concerns, this paper proposes two crowd management methodologies. Firstly, we advocate for the implementation of a fair evacuation strategy following a surge event, which takes into account the diverse needs of all individuals, ensuring inclusivity and mitigating potential risks. Secondly, we propose a preventative approach involving the adjustment of attraction locations and switching between stage performances in large-crowded events to minimize the occurrence of surges and enhance crowd dispersion. To assess the effectiveness of our proposals, we used high-fidelity crowd management simulators. Our findings demonstrate the positive impact of the fair evacuation strategy on safety measures and inclusivity, which increases fairness by 41.8% on average. Furthermore, the adjustment of attraction locations and stage performances has shown a significant reduction in the incidence of surges by 34% on average, thereby enhancing overall crowd safety.
翻訳日:2023-11-07 18:43:57 公開日:2023-11-03
# 画素観察による状態対応型安全強化学習

State-wise Safe Reinforcement Learning With Pixel Observations ( http://arxiv.org/abs/2311.02227v1 )

ライセンス: Link先を確認
Simon Sinong Zhan, Yixuan Wang, Qingyuan Wu, Ruochen Jiao, Chao Huang, Qi Zhu(参考訳) 安全探査の文脈における強化学習(rl)は、報酬の最大化と安全侵害の最小化の微妙なバランス、接触の多い環境や非スムース環境から生じる複雑さ、高次元のピクセル観察といった課題に長い間取り組まれてきた。 さらに、エージェントが事前の知識なしで安全でない領域へのアクセスを禁止される探索学習プロセスに、国家側の安全制約を組み込むことで、さらに複雑さの層が増す。 本稿では,潜在障壁関数学習機構を導入して,未知の危険領域に対する状態的安全制約を効率的に符号化する,新しい画素観測安全RLアルゴリズムを提案する。 共同学習フレームワークとして,我々はまず,画素観測から導出した低次元潜在空間を持つ潜在力学モデルを構築する。 その後、潜在ダイナミクスの上に潜在障壁関数を構築し学習し、同時にポリシー最適化を行い、安全性と総期待リターンの両方を改善します。 その結果,提案手法はトレーニングプロセス全体を通じて安全性侵害を著しく低減し,既存の手法と比較して安全性の収束が向上し,競争力のある結果が得られた。

Reinforcement Learning(RL) in the context of safe exploration has long grappled with the challenges of the delicate balance between maximizing rewards and minimizing safety violations, the complexities arising from contact-rich or non-smooth environments, and high-dimensional pixel observations. Furthermore, incorporating state-wise safety constraints in the exploration and learning process, where the agent is prohibited from accessing unsafe regions without prior knowledge, adds an additional layer of complexity. In this paper, we propose a novel pixel-observation safe RL algorithm that efficiently encodes state-wise safety constraints with unknown hazard regions through the introduction of a latent barrier function learning mechanism. As a joint learning framework, our approach first involves constructing a latent dynamics model with low-dimensional latent spaces derived from pixel observations. Subsequently, we build and learn a latent barrier function on top of the latent dynamics and conduct policy optimization simultaneously, thereby improving both safety and the total expected return. Experimental evaluations on the safety-gym benchmark suite demonstrate that our proposed method significantly reduces safety violations throughout the training process and demonstrates faster safety convergence compared to existing methods while achieving competitive results in reward return.
翻訳日:2023-11-07 18:43:37 公開日:2023-11-03
# 変圧器を用いた部分微分方程式のマルチスケールタイムステッピング

Multi-scale Time-stepping of Partial Differential Equations with Transformers ( http://arxiv.org/abs/2311.02225v1 )

ライセンス: Link先を確認
AmirPouya Hemmasian, Amir Barati Farimani(参考訳) 偏微分方程式(pdes)のための高速サロゲートの開発は、ほとんどすべての科学的および工学的応用において設計と最適化を加速する。 しかし、ニューラルネットワークはますます注目を集め、PDEの計算モデルにおいて顕著な成功を収めている。 本研究では、多くの最先端AIモデルのバックボーンであるトランスフォーマーアーキテクチャを用いて、畳み込みオートエンコーダによって学習された空間パターンの混合として物理系の力学を学習する。 さらに,マルチスケール階層型時間ステップの考え方を取り入れ,予測速度の向上と累積誤差の低減を図る。 本モデルは,強力なフーリエニューラル演算子 (fno) と2つのトランスフォーマーおよびガレルキントランスフォーマと比較して,navier-stokes方程式の時間変化を予測できる。

Developing fast surrogates for Partial Differential Equations (PDEs) will accelerate design and optimization in almost all scientific and engineering applications. Neural networks have been receiving ever-increasing attention and demonstrated remarkable success in computational modeling of PDEs, however; their prediction accuracy is not at the level of full deployment. In this work, we utilize the transformer architecture, the backbone of numerous state-of-the-art AI models, to learn the dynamics of physical systems as the mixing of spatial patterns learned by a convolutional autoencoder. Moreover, we incorporate the idea of multi-scale hierarchical time-stepping to increase the prediction speed and decrease accumulated error over time. Our model achieves similar or better results in predicting the time-evolution of Navier-Stokes equations compared to the powerful Fourier Neural Operator (FNO) and two transformer-based neural operators OFormer and Galerkin Transformer.
翻訳日:2023-11-07 18:43:16 公開日:2023-11-03
# 早期物体検出のためのパッチベース選択と補正

Patch-based Selection and Refinement for Early Object Detection ( http://arxiv.org/abs/2311.02274v1 )

ライセンス: Link先を確認
Tianyi Zhang, Kishore Kasichainula, Yaoxin Zhuo, Baoxin Li, Jae-Sun Seo, Yu Cao(参考訳) 早期物体検出(OD)は多くの動的システムの安全性にとって重要な課題である。 現在のodアルゴリズムは、長距離での小さな物体の成功を限定している。 このようなタスクの精度と効率を向上させるために,イメージをパッチに分割し,さまざまなスケールのオブジェクトでパッチを選択し,小さなオブジェクトの詳細を精巧化し,可能な限り早期に検出する新しいアルゴリズムを提案する。 本手法はトランスベースネットワークを基盤とし,拡散モデルを統合し,検出精度を向上させる。 BDD100Kで実証されたように、我々のアルゴリズムは、小さなオブジェクトのmAPを1.03から8.93に拡張し、計算におけるデータボリュームを77\%以上削減する。 ソースコードは \href{https://github.com/destiny301/dpr}{https://github.com/destiny301/dpr} で入手できる。

Early object detection (OD) is a crucial task for the safety of many dynamic systems. Current OD algorithms have limited success for small objects at a long distance. To improve the accuracy and efficiency of such a task, we propose a novel set of algorithms that divide the image into patches, select patches with objects at various scales, elaborate the details of a small object, and detect it as early as possible. Our approach is built upon a transformer-based network and integrates the diffusion model to improve the detection accuracy. As demonstrated on BDD100K, our algorithms enhance the mAP for small objects from 1.03 to 8.93, and reduce the data volume in computation by more than 77\%. The source code is available at \href{https://github.com/destiny301/dpr}{https://github.com/destiny301/dpr}
翻訳日:2023-11-07 18:34:33 公開日:2023-11-03
# famesumm:医療要約の忠実性の調査と改善

FaMeSumm: Investigating and Improving Faithfulness of Medical Summarization ( http://arxiv.org/abs/2311.02271v1 )

ライセンス: Link先を確認
Nan Zhang, Yusen Zhang, Wu Guo, Prasenjit Mitra, Rui Zhang(参考訳) 医療用テキストの要約は,医療における安全及び効率の重要かつ未検討の話題である,情報源の入力と整合かつ事実的であることに忠実である。 本稿では,医療要約タスクの幅広い範囲において,要約における忠実度を調査・改善する。 本研究は,現在の要約モデルが医療用入力テキストに対して不誠実な出力を生じることを明らかにする。 次に,医学的知識に基づく事前学習言語モデルの微調整による忠実度向上のためのフレームワークであるFAMESUMMを紹介する。 FAMESUMMは、デザインされた忠実で不誠実な要約セットで対照的な学習を行い、医療用語とその文脈を取り入れ、医療用語の忠実な生成を促進する。 健康問題と放射線医学レポートの要約データセットを英語で、患者と医師の対話データセットを中国語で比較した。 その結果、FAMESUMMは、BART、T5、mT5、PEGASUSといった主流言語モデルに対して一貫した改善を施し、信頼性と一般的な品質の指標に関する最先端のパフォーマンスを得ることにより、柔軟で効果的であることを示した。 医師による人的評価は、FAMESUMMがより忠実なアウトプットを生成することを示している。 私たちのコードはhttps: //github.com/psunlpgroup/FaMeSummで利用可能です。

Summaries of medical text shall be faithful by being consistent and factual with source inputs, which is an important but understudied topic for safety and efficiency in healthcare. In this paper, we investigate and improve faithfulness in summarization on a broad range of medical summarization tasks. Our investigation reveals that current summarization models often produce unfaithful outputs for medical input text. We then introduce FAMESUMM, a framework to improve faithfulness by fine-tuning pre-trained language models based on medical knowledge. FAMESUMM performs contrastive learning on designed sets of faithful and unfaithful summaries, and it incorporates medical terms and their contexts to encourage faithful generation of medical terms. We conduct comprehensive experiments on three datasets in two languages: health question and radiology report summarization datasets in English, and a patient-doctor dialogue dataset in Chinese. Results demonstrate that FAMESUMM is flexible and effective by delivering consistent improvements over mainstream language models such as BART, T5, mT5, and PEGASUS, yielding state-of-the-art performances on metrics for faithfulness and general quality. Human evaluation by doctors also shows that FAMESUMM generates more faithful outputs. Our code is available at https: //github.com/psunlpgroup/FaMeSumm.
翻訳日:2023-11-07 18:34:20 公開日:2023-11-03
# 二元分類のための正規化線形回帰

Regularized Linear Regression for Binary Classification ( http://arxiv.org/abs/2311.02270v1 )

ライセンス: Link先を確認
Danil Akhtiamov, Reza Ghane and Babak Hassibi(参考訳) 正規化線形回帰は、正規化項が誤ラベルデータポイントの補間を避けるのに役立つため、トレーニングセットがノイズラベルを持つバイナリ分類問題に対して有望なアプローチである。 本稿では,正則化最小二乗の目的を最小化することにより二項分類問題の解法を訓練した線形分類器の性能に及ぼす正則化強度の影響を系統的に検討する。 過度にパラメータ化された状態を考え、トレーニングデータの分数$c<\frac{1}{2}$が誤ってラベル付けされたガウス混合モデル(GMM)からクラスが生成されると仮定する。 これらの仮定の下で、リッジ、$\ell_1$および$\ell_\infty$回帰の適用による分類誤差を厳密に分析する。 特に,リッジ回帰は分類誤差を常に改善することを示す。 我々は、$\ell_1$正規化がスパーシティを誘導し、多くの場合、gmmが基礎的なスパーシティ構造を持っていないにもかかわらず、性能を損なうことなく解を最大2桁までスパースすることができることを証明する。 正規化$\ell_\infty$ の場合、十分大きな正規化強度では、最適な重みは反対符号の2つの値に集中する。 多くの場合、各重みの1ビットに対する「圧縮」が性能の損失を極めて少なくする。 後者の観測は、かなりの実用的変化をもたらす可能性がある。

Regularized linear regression is a promising approach for binary classification problems in which the training set has noisy labels since the regularization term can help to avoid interpolating the mislabeled data points. In this paper we provide a systematic study of the effects of the regularization strength on the performance of linear classifiers that are trained to solve binary classification problems by minimizing a regularized least-squares objective. We consider the over-parametrized regime and assume that the classes are generated from a Gaussian Mixture Model (GMM) where a fraction $c<\frac{1}{2}$ of the training data is mislabeled. Under these assumptions, we rigorously analyze the classification errors resulting from the application of ridge, $\ell_1$, and $\ell_\infty$ regression. In particular, we demonstrate that ridge regression invariably improves the classification error. We prove that $\ell_1$ regularization induces sparsity and observe that in many cases one can sparsify the solution by up to two orders of magnitude without any considerable loss of performance, even though the GMM has no underlying sparsity structure. For $\ell_\infty$ regularization we show that, for large enough regularization strength, the optimal weights concentrate around two values of opposite sign. We observe that in many cases the corresponding "compression" of each weight to a single bit leads to very little loss in performance. These latter observations can have significant practical ramifications.
翻訳日:2023-11-07 18:33:52 公開日:2023-11-03
# LLMを付加したコンテキスト帯域

LLMs-augmented Contextual Bandit ( http://arxiv.org/abs/2311.02268v1 )

ライセンス: Link先を確認
Ali Baheri, Cecilia O. Alm(参考訳) コンテキストバンディットは強化学習の基礎として登場し、システムが部分的なフィードバックで意思決定を可能にする。 しかし、コンテキストが複雑化するにつれて、従来のバンディットアルゴリズムはそのようなコンテキストを適切に捉え、活用する上で困難に直面することがある。 本稿では,大規模言語モデル(LLM)と文脈的バンディットフレームワークとの新たな統合を提案する。 LLMをエンコーダとして活用することにより、コンテキストの表現を豊かにし、バンディットにより密でより情報的なビューを提供する。 合成データセットの予備的な結果はこのアプローチの可能性を示し、従来のバンディットアルゴリズムと比較して累積報酬と後悔の削減が顕著に改善されたことを示している。 この統合は強化学習におけるllmの能力を示すだけでなく、文脈認識型意思決定システムの新しい時代への扉を開く。

Contextual bandits have emerged as a cornerstone in reinforcement learning, enabling systems to make decisions with partial feedback. However, as contexts grow in complexity, traditional bandit algorithms can face challenges in adequately capturing and utilizing such contexts. In this paper, we propose a novel integration of large language models (LLMs) with the contextual bandit framework. By leveraging LLMs as an encoder, we enrich the representation of the context, providing the bandit with a denser and more informative view. Preliminary results on synthetic datasets demonstrate the potential of this approach, showing notable improvements in cumulative rewards and reductions in regret compared to traditional bandit algorithms. This integration not only showcases the capabilities of LLMs in reinforcement learning but also opens the door to a new era of contextually-aware decision systems.
翻訳日:2023-11-07 18:33:09 公開日:2023-11-03
# 光コヒーレンス・トモグラフィ(OCTA)血管セグメンテーションのためのマルチタスク学習

Multi-task Learning for Optical Coherence Tomography Angiography (OCTA) Vessel Segmentation ( http://arxiv.org/abs/2311.02266v1 )

ライセンス: Link先を確認
Can Koz, Onat Dalmaz, Mertay Dayanc(参考訳) 光コヒーレンス・トモグラフィー(OCTA)は、網膜の高分解能横断像を提供する非侵襲的イメージング技術であり、様々な網膜疾患の診断とモニタリングに有用である。 しかし,OCTA画像の手動分割は時間と労力のかかる作業であり,自動分割法の開発を動機付けている。 本稿では,イメージ・トゥ・DT(Distance Transform)ブランチと適応的損失結合戦略を活用するOCTA-MTLという,OCTAセグメンテーションのためのマルチタスク学習手法を提案する。 Image-to-DTブランチは、各容器ボクセルから容器表面までの距離を予測し、セグメンテーションタスクに有用な形状と境界情報を提供する。 適応損失結合戦略は、各タスクの平均損失値の逆に従って損失重みを動的に調整し、学習プロセスをバランスさせ、一方のタスクが他方よりも優位になるのを避ける。 本研究では,ROSE-2データセットのセグメンテーション性能を,単一タスクセグメンテーション法と固定損失組合せを用いたマルチタスクセグメンテーション法という2つのベースライン手法と比較して評価した。

Optical Coherence Tomography Angiography (OCTA) is a non-invasive imaging technique that provides high-resolution cross-sectional images of the retina, which are useful for diagnosing and monitoring various retinal diseases. However, manual segmentation of OCTA images is a time-consuming and labor-intensive task, which motivates the development of automated segmentation methods. In this paper, we propose a novel multi-task learning method for OCTA segmentation, called OCTA-MTL, that leverages an image-to-DT (Distance Transform) branch and an adaptive loss combination strategy. The image-to-DT branch predicts the distance from each vessel voxel to the vessel surface, which can provide useful shape prior and boundary information for the segmentation task. The adaptive loss combination strategy dynamically adjusts the loss weights according to the inverse of the average loss values of each task, to balance the learning process and avoid the dominance of one task over the other. We evaluate our method on the ROSE-2 dataset its superiority in terms of segmentation performance against two baseline methods: a single-task segmentation method and a multi-task segmentation method with a fixed loss combination.
翻訳日:2023-11-07 18:32:46 公開日:2023-11-03
# すべての層が等しく重要であるわけではない: すべての層がbertを数える

Not all layers are equally as important: Every Layer Counts BERT ( http://arxiv.org/abs/2311.02265v1 )

ライセンス: Link先を確認
Lucas Georges Gabriel Charpentier and David Samuel(参考訳) 本稿では,言語モデルのデータ効率のよい事前学習のために調整されたトランスフォーマーアーキテクチャの新規な修正を提案する。 この側面はBabyLMチャレンジに参加して評価され、ソリューションは \textsc{strict} と \textsc{strict-small} の両方のトラックを獲得した。 我々のアプローチでは、各トランスフォーマー層が処理する前のレイヤの出力を選択することができる。 実験結果は、この単純な修正の可能性を検証し、すべての層が等しく重要であるわけではないことを示す。

This paper introduces a novel modification of the transformer architecture, tailored for the data-efficient pretraining of language models. This aspect is evaluated by participating in the BabyLM challenge, where our solution won both the \textsc{strict} and \textsc{strict-small} tracks. Our approach allows each transformer layer to select which outputs of previous layers to process. The empirical results verify the potential of this simple modification and show that not all layers are equally as important.
翻訳日:2023-11-07 18:32:08 公開日:2023-11-03
# 参加先をモデルに教える - llmのポストホックなアテンションステアリング

Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs ( http://arxiv.org/abs/2311.02262v1 )

ライセンス: Link先を確認
Qingru Zhang, Chandan Singh, Liyuan Liu, Xiaodong Liu, Bin Yu, Jianfeng Gao, Tuo Zhao(参考訳) 人間による記事では、読者の注意を導くために、太字やイタリックといったテキストスタイルの微妙な点をしばしば活用している。 これらのテキストエンフェーズは、読者が伝達された情報の把握に不可欠である。 大規模言語モデル(LLM)と対話する場合、命令などのユーザ指定情報により深く注意を払うために、同様のニーズがある。 しかし、既存のメソッドはプレーンテキストの処理に制約があり、そのようなメカニズムをサポートしていない。 PASTA - Post-hoc Attention STeering Approachは、LLMがユーザが指定した強調マークでテキストを読むことができる方法です。 この目的のために、PASTAは小さな注意ヘッドのサブセットを特定し、それらに正確な注意再重み付けを適用し、モデルの注意をユーザ指定部品に向ける。 プロンプトと同様に、PASTAは推論時に適用され、モデルパラメータを変更する必要はない。 実験により、PASTAはLLMのユーザ指示に従う能力を大幅に向上し、ユーザ入力から新しい知識を統合することができ、LLAMA-7Bの平均精度が22%向上するなど、様々なタスクにおいて大幅な性能向上をもたらすことが示されている。 私たちのコードはhttps://github.com/QingruZhang/PASTAで公開されています。

In human-written articles, we often leverage the subtleties of text style, such as bold and italics, to guide the attention of readers. These textual emphases are vital for the readers to grasp the conveyed information. When interacting with large language models (LLMs), we have a similar need - steering the model to pay closer attention to user-specified information, e.g., an instruction. Existing methods, however, are constrained to process plain text and do not support such a mechanism. This motivates us to introduce PASTA - Post-hoc Attention STeering Approach, a method that allows LLMs to read text with user-specified emphasis marks. To this end, PASTA identifies a small subset of attention heads and applies precise attention reweighting on them, directing the model attention to user-specified parts. Like prompting, PASTA is applied at inference time and does not require changing any model parameters. Experiments demonstrate that PASTA can substantially enhance an LLM's ability to follow user instructions or integrate new knowledge from user inputs, leading to a significant performance improvement on a variety of tasks, e.g., an average accuracy improvement of 22% for LLAMA-7B. Our code is publicly available at https://github.com/QingruZhang/PASTA .
翻訳日:2023-11-07 18:31:52 公開日:2023-11-03
# 個体群動態によるニューロンの時間不変表現の学習

Learning Time-Invariant Representations for Individual Neurons from Population Dynamics ( http://arxiv.org/abs/2311.02258v1 )

ライセンス: Link先を確認
Lu Mi, Trung Le, Tianxing He, Eli Shlizerman, Uygar S\"umb\"ul(参考訳) ニューロンは、非常に可変なダイナミクスを表示できる。 このような変動性は、おそらく生物が生み出す幅広い行動をサポートするが、その遺伝子発現は成体脳で比較的安定している。 これは神経活動が時間不変のアイデンティティとニューロンが回路の残りの部分から受ける入力の組み合わせであることを示している。 本稿では,個体群記録の順列,個体群サイズ不変性に基づいて,各ニューロンに時間不変表現を割り当てる自己教師付き学習法を提案する。 ニューロン活動に動的モデルを適用し,個体群と隣接個体群の双方の活動を考慮し,表現の学習を行う。 我々の自己教師ありアプローチと暗黙的表現の使用により、セッション間のニューロンの部分的重なり、試行錯誤性、下流教師ありタスクのための分子(転写学)ラベルの制限といった不完全性に対する堅牢な推論が可能となる。 マウス皮質ニューロン活動と転写ラベルのマルチモーダルデータセットを用いて,本手法を実証する。 トランスクリプトミクスサブクラスの予測精度が35%向上し,最先端のクラス識別精度が20%向上した。

Neurons can display highly variable dynamics. While such variability presumably supports the wide range of behaviors generated by the organism, their gene expressions are relatively stable in the adult brain. This suggests that neuronal activity is a combination of its time-invariant identity and the inputs the neuron receives from the rest of the circuit. Here, we propose a self-supervised learning based method to assign time-invariant representations to individual neurons based on permutation-, and population size-invariant summary of population recordings. We fit dynamical models to neuronal activity to learn a representation by considering the activity of both the individual and the neighboring population. Our self-supervised approach and use of implicit representations enable robust inference against imperfections such as partial overlap of neurons across sessions, trial-to-trial variability, and limited availability of molecular (transcriptomic) labels for downstream supervised tasks. We demonstrate our method on a public multimodal dataset of mouse cortical neuronal activity and transcriptomic labels. We report > 35% improvement in predicting the transcriptomic subclass identity and > 20% improvement in predicting class identity with respect to the state-of-the-art.
翻訳日:2023-11-07 18:31:26 公開日:2023-11-03
# 論理意味的識別に基づく油漏れ領域の画像認識

Image Recognition of Oil Leakage Area Based on Logical Semantic Discrimination ( http://arxiv.org/abs/2311.02256v1 )

ライセンス: Link先を確認
Weiying Lin, Che Liu, Xin Zhang, Zhen Wei, Sizhe Li, Xun Ma(参考訳) 画像解析によるピーク負荷装置の油漏れの正確な検出は、検査品質を大幅に向上させ、システムの安全性と信頼性を確保する。 しかし, 油彩領域の形状の変化, 背景雑音, 変動する照明条件などの課題は, 検出過程を複雑にしている。 これを解決するために,論理規則に基づく識別と画像認識の統合が提案されている。 このアプローチでは,Mask RCNNネットワークを用いて,オブジェクト間の空間的関係を認識し,石油流出のイメージを意味的に分割する。 このプロセスは、原画像を強化するためにヒストグラムの等化から始まり、続いてMask RCNNを使用して石油タンク、地上および潜在的な石油汚染領域の予備的な位置と概要を特定する。 その結果,これらの物体間の空間的関係を解析した。 論理規則は、疑わしい地域が実際に原油流出であるかどうかを確認するために適用される。 この手法の有効性は、現場のピーク電力機器から撮影した画像で確認されている。 以上の結果から,このアプローチは油汚染地域を特定する際の課題を適切に解決できる可能性が示唆され,既存の手法に比べて精度が大幅に向上した。

Implementing precise detection of oil leaks in peak load equipment through image analysis can significantly enhance inspection quality and ensure the system's safety and reliability. However, challenges such as varying shapes of oil-stained regions, background noise, and fluctuating lighting conditions complicate the detection process. To address this, the integration of logical rule-based discrimination into image recognition has been proposed. This approach involves recognizing the spatial relationships among objects to semantically segment images of oil spills using a Mask RCNN network. The process begins with histogram equalization to enhance the original image, followed by the use of Mask RCNN to identify the preliminary positions and outlines of oil tanks, the ground, and areas of potential oil contamination. Subsequent to this identification, the spatial relationships between these objects are analyzed. Logical rules are then applied to ascertain whether the suspected areas are indeed oil spills. This method's effectiveness has been confirmed by testing on images captured from peak power equipment in the field. The results indicate that this approach can adeptly tackle the challenges in identifying oil-contaminated areas, showing a substantial improvement in accuracy compared to existing methods.
翻訳日:2023-11-07 18:30:59 公開日:2023-11-03
# 遺伝的ドリフトの理解から分布推定アルゴリズムのスマートリスタート機構へ

From Understanding Genetic Drift to a Smart-Restart Mechanism for Estimation-of-Distribution Algorithms ( http://arxiv.org/abs/2206.09090v5 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 推定分布アルゴリズム(EDAs)は、優れた解を容易にサンプリングできる探索空間上の分布を学習する最適化アルゴリズムである。 ほとんどのEDAのキーパラメータはサンプルサイズ(集団サイズ)である。 集団サイズが小さすぎると、確率モデルの更新は少数のサンプルの上に構築され、遺伝的ドリフトの望ましくない影響をもたらす。 人口が多すぎると遺伝的ドリフトは避けられますが、プロセスは遅くなります。 集団の大きさが遺伝的ドリフトにどのように繋がるかの最近の定量的分析に基づいて、我々はEDAのためのスマートリスタート機構を設計する。 遺伝的ドリフトのリスクが高い場合に実行を停止することで、適切なパラメータで自動的にedaを実行します。 数学的な実行時解析により、このスマートリスタート方式の一般的な性能保証が証明される。 特に、最適パラメータ値が知られている多くの状況において、再起動スキームが自動的にこれらを見つけ出し、漸近的に最適な性能をもたらすことが示されている。 広範な実験分析も行っています。 4つの古典的なベンチマーク問題において,個体群の大きさが性能に与える影響を明らかに観察し,スマートリスタート方式が最適なパラメータ値で得られるものに近い性能をもたらすことを見出した。 また, 最適個体数に対する従来の理論に基づく提案は, 最適個体数とは程遠い可能性を示し, スマートリスタート方式によって得られた提案よりも明らかに性能が劣ることを示した。 また,2つの組合せ最適化問題,最大カット問題,分割問題についてもPBIL(クロスエントロピーアルゴリズム)を用いて実験を行った。 繰り返しになるが、スマートリスタート機構は文献で示唆されているものよりも人口規模に対してはるかに優れた値を見出すので、パフォーマンスが向上する。

Estimation-of-distribution algorithms (EDAs) are optimization algorithms that learn a distribution on the search space from which good solutions can be sampled easily. A key parameter of most EDAs is the sample size (population size). If the population size is too small, the update of the probabilistic model builds on few samples, leading to the undesired effect of genetic drift. Too large population sizes avoid genetic drift, but slow down the process. Building on a recent quantitative analysis of how the population size leads to genetic drift, we design a smart-restart mechanism for EDAs. By stopping runs when the risk for genetic drift is high, it automatically runs the EDA in good parameter regimes. Via a mathematical runtime analysis, we prove a general performance guarantee for this smart-restart scheme. This in particular shows that in many situations where the optimal (problem-specific) parameter values are known, the restart scheme automatically finds these, leading to the asymptotically optimal performance. We also conduct an extensive experimental analysis. On four classic benchmark problems, we clearly observe the critical influence of the population size on the performance, and we find that the smart-restart scheme leads to a performance close to the one obtainable with optimal parameter values. Our results also show that previous theory-based suggestions for the optimal population size can be far from the optimal ones, leading to a performance clearly inferior to the one obtained via the smart-restart scheme. We also conduct experiments with PBIL (cross-entropy algorithm) on two combinatorial optimization problems from the literature, the max-cut problem and the bipartition problem. Again, we observe that the smart-restart mechanism finds much better values for the population size than those suggested in the literature, leading to a much better performance.
翻訳日:2023-11-06 18:52:57 公開日:2023-11-03
# ミニマライザと畳み込みフィルタについて:理論接続とゲノム解析への応用

On minimizers and convolutional filters: theoretical connections and applications to genome analysis ( http://arxiv.org/abs/2111.08452v5 )

ライセンス: Link先を確認
Yun William Yu(参考訳) 最小化と畳み込みニューラルネットワーク(cnns)は2つの非常に異なる手法であり、どちらも分類学的生物学的配列の解析に使われている。 対面値では、メソッドは完全に異なるように思える。 最小化器はローリングウィンドウにミニワイズハッシュを使用して、ウィンドウ毎に単一の重要なk-mer機能を抽出する。 CNNは、ランダムに初期化された畳み込みフィルタの幅広い配列から始まり、プール操作と組み合わせ、次に複数のニューラルネットワーク層を追加して、フィルタ自身と、シーケンスの分類にどのように使用できるかを学ぶ。 ここでは、分類アルファベット上の列に対して、最大プーリングを持つ畳み込みフィルタのランダムガウス初期化は、選択されたk-merが(ハミング距離において)配列内のk-merから遠いが、他の最小値に近いような最小化順序を選択するのに等価であることを示すハッシュ関数特性の慎重な数学的解析を行う。 実験実験では、この性質はシミュレーションと実際のヒトテロメアの両方において繰り返し領域における密度の低下として現れる。 さらに、sars-cov-2ゲノムから合成された短読点を3次元ユークリッド空間に埋め込み、読み出し元の線形配列距離を局所的に再結合するcnnをスクラッチからトレーニングした。 本書は,CNNの分類的配列解析における有効性について概説する。

Minimizers and convolutional neural networks (CNNs) are two quite distinct popular techniques that have both been employed to analyze categorical biological sequences. At face value, the methods seem entirely dissimilar. Minimizers use min-wise hashing on a rolling window to extract a single important k-mer feature per window. CNNs start with a wide array of randomly initialized convolutional filters, paired with a pooling operation, and then multiple additional neural layers to learn both the filters themselves and how they can be used to classify the sequence. Here, our main result is a careful mathematical analysis of hash function properties showing that for sequences over a categorical alphabet, random Gaussian initialization of convolutional filters with max-pooling is equivalent to choosing a minimizer ordering such that selected k-mers are (in Hamming distance) far from the k-mers within the sequence but close to other minimizers. In empirical experiments, we find that this property manifests as decreased density in repetitive regions, both in simulation and on real human telomeres. We additionally train from scratch a CNN embedding of synthetic short-reads from the SARS-CoV-2 genome into 3D Euclidean space that locally recapitulates the linear sequence distance of the read origins, a modest step towards building a deep learning assembler, though it is at present too slow to be practical. In total, this manuscript provides a partial explanation for the effectiveness of CNNs in categorical sequence analysis.
翻訳日:2023-11-06 18:51:38 公開日:2023-11-03
# バックプロパゲーションにおけるReLU'(0)の数値解析効果

Numerical influence of ReLU'(0) on backpropagation ( http://arxiv.org/abs/2106.12915v4 )

ライセンス: Link先を確認
David Bertoin (ISAE-SUPAERO), J\'er\^ome Bolte (TSE-R), S\'ebastien Gerchinovitz (IMT), Edouard Pauwels (IRIT-ADRIA)(参考訳) 理論上、ニューラルネットワークの[0, 1]におけるrelu(0)の選択は、バックプロパゲーションとトレーニングの両方に無視できない影響を与える。 しかし、現実世界では、32ビットのデフォルト精度とディープラーニングの問題のサイズが組み合わさって、トレーニング手法のハイパーパラメータとなる。 各種ネットワーク(全接続, VGG, ResNet)とデータセット(MNIST, CIFAR10, SVHN, ImageNet)における複数の精度レベル(16, 32, 64ビット)に対するReLU'(0)の値の重要性について検討する。 約半分の時間で32ビット精度で発生するバックプロパゲーション出力のかなりの変動を観測する。 この効果は倍精度で消失するが、16ビットで体系化される。 バニラSGDトレーニングでは、ReLU'(0) = 0 の選択が最も効率的と思われる。 ImageNetの実験では、ReLU'(0) = 1に対するテスト精度の上昇は10ポイント以上(2ラン)であった。 また、バッチノルムやADAMのようなリコンディショニングアプローチは、ReLU(0)値の影響を緩衝する傾向にあることを示す。 全体として、我々が伝えるメッセージは、非滑らかな問題のアルゴリズム的微分は、有利に調整できるパラメータを隠蔽する可能性があるということだ。

In theory, the choice of ReLU(0) in [0, 1] for a neural network has a negligible influence both on backpropagation and training. Yet, in the real world, 32 bits default precision combined with the size of deep learning problems makes it a hyperparameter of training methods. We investigate the importance of the value of ReLU'(0) for several precision levels (16, 32, 64 bits), on various networks (fully connected, VGG, ResNet) and datasets (MNIST, CIFAR10, SVHN, ImageNet). We observe considerable variations of backpropagation outputs which occur around half of the time in 32 bits precision. The effect disappears with double precision, while it is systematic at 16 bits. For vanilla SGD training, the choice ReLU'(0) = 0 seems to be the most efficient. For our experiments on ImageNet the gain in test accuracy over ReLU'(0) = 1 was more than 10 points (two runs). We also evidence that reconditioning approaches as batch-norm or ADAM tend to buffer the influence of ReLU'(0)'s value. Overall, the message we convey is that algorithmic differentiation of nonsmooth problems potentially hides parameters that could be tuned advantageously.
翻訳日:2023-11-06 18:51:09 公開日:2023-11-03
# CSLNSpeech:中国語手話による拡張音声分離問題の解法

CSLNSpeech: solving extended speech separation problem with the help of Chinese sign language ( http://arxiv.org/abs/2007.10629v2 )

ライセンス: Link先を確認
Jiasong Wu, Xuan Li, Taotao Li, Fanman Meng, Youyong Kong, Guanyu Yang, Lotfi Senhadji, Huazhong Shu(参考訳) 従来の音声・視覚音声分離手法では,映像中の話者の顔の動きと音声の同期を利用して,音声分離を自己教師あり方式で監視している。 本稿では,手話と顔の双方が支援する音声分離問題を解くためのモデルを提案し,この問題を拡張音声分離問題と呼ぶ。 本研究では,音声,顔,手話の3つのモダリティの組み合わせを学習する汎用深層学習ネットワークを設計し,音声分離問題を解決する。 モデルをトレーニングするために,中国語手話ニュース音声(cslnspeech)データセットと呼ばれる大規模データセットを導入し,音声,顔,手話の3つのモダリティが共存する。 実験の結果,提案手法は従来の視聴覚システムよりも性能と頑健性が向上した。 さらに、手話のモダリティは単独で音声分離タスクを監督することもできますし、手話の導入は聴覚障害者の学習とコミュニケーションに役立ちます。 最後に、我々のモデルは一般的な音声分離フレームワークであり、2つのオープンソース音声視覚データセット上で非常に競争力のある分離性能を実現することができる。 コードはhttps://github.com/iveveive/slnspeechで入手できる。

Previous audio-visual speech separation methods use the synchronization of the speaker's facial movement and speech in the video to supervise the speech separation in a self-supervised way. In this paper, we propose a model to solve the speech separation problem assisted by both face and sign language, which we call the extended speech separation problem. We design a general deep learning network for learning the combination of three modalities, audio, face, and sign language information, for better solving the speech separation problem. To train the model, we introduce a large-scale dataset named the Chinese Sign Language News Speech (CSLNSpeech) dataset, in which three modalities of audio, face, and sign language coexist. Experiment results show that the proposed model has better performance and robustness than the usual audio-visual system. Besides, sign language modality can also be used alone to supervise speech separation tasks, and the introduction of sign language is helpful for hearing-impaired people to learn and communicate. Last, our model is a general speech separation framework and can achieve very competitive separation performance on two open-source audio-visual datasets. The code is available at https://github.com/iveveive/SLNSpeech
翻訳日:2023-11-06 18:50:26 公開日:2023-11-03
# 非定常帯域に対するリカレントニューラルLinear Posterior Smpling

Recurrent Neural-Linear Posterior Sampling for Nonstationary Contextual Bandits ( http://arxiv.org/abs/2007.04750v2 )

ライセンス: Link先を確認
Aditya Ramesh, Paulo Rauber, Michelangelo Conserva, J\"urgen Schmidhuber(参考訳) 非定常的文脈的包帯問題のエージェントは、探索と以前の経験に存在する(周期的または構造化された)パターンの活用のバランスをとるべきである。 適切な歴史的文脈を手作りすることは、非定常問題を効率的に解決できる定常問題に変換する魅力的な方法である。 しかし、慎重に設計された歴史的文脈でさえ、急激な関係や重要な情報の便利な表現が欠如している可能性がある。 これらの課題に対処するために,エージェントと環境間の相互作用の生履歴のみに基づいて,意思決定の関連文脈を表現することを学ぶアプローチを提案する。 このアプローチは、リカレントニューラルネットワークによって抽出された特徴と、後続サンプリングに基づく文脈線形帯域アルゴリズムの組み合わせに依存する。 文脈的および非文脈的非定常問題の多種多様な選択実験により,従来の非定常バンディットアルゴリズムよりも広く適用可能でありながら,手作りの歴史的文脈を必要とするフィードフォワードよりも連続的に優れていることが示された。 新たなアプローチでは理論的性能保証を提供するのは非常に困難であるが,将来的な理論研究の基盤となるような測定誤差を伴う線形後続サンプリングに結びついた新たな後悔を証明できる。

An agent in a nonstationary contextual bandit problem should balance between exploration and the exploitation of (periodic or structured) patterns present in its previous experiences. Handcrafting an appropriate historical context is an attractive alternative to transform a nonstationary problem into a stationary problem that can be solved efficiently. However, even a carefully designed historical context may introduce spurious relationships or lack a convenient representation of crucial information. In order to address these issues, we propose an approach that learns to represent the relevant context for a decision based solely on the raw history of interactions between the agent and the environment. This approach relies on a combination of features extracted by recurrent neural networks with a contextual linear bandit algorithm based on posterior sampling. Our experiments on a diverse selection of contextual and noncontextual nonstationary problems show that our recurrent approach consistently outperforms its feedforward counterpart, which requires handcrafted historical contexts, while being more widely applicable than conventional nonstationary bandit algorithms. Although it is very difficult to provide theoretical performance guarantees for our new approach, we also prove a novel regret bound for linear posterior sampling with measurement error that may serve as a foundation for future theoretical work.
翻訳日:2023-11-06 18:50:08 公開日:2023-11-03
# 量子コンピュータ上での仮想時間進化を用いた最適分子ジオメトリーの探索

Exhaustive search for optimal molecular geometries using imaginary-time evolution on a quantum computer ( http://arxiv.org/abs/2210.09883v2 )

ライセンス: Link先を確認
Taichi Kosugi, Hirofumi Nishi, Yuichiro Matsushita(参考訳) 量子コンピュータ上での確率的想像時間進化(PITE)を用いた量子化学のフレームワークである第一量子化固有解法のための分子の幾何最適化のための非変分法スキームを提案する。 分子中の電子は量子力学的粒子として扱われるが、核は古典的な点電荷として扱われる。 電子状態と分子の候補を多ビット状態の重ね合わせとしてエンコードし、量子的優位性をもたらす。 繰り返し測定の結果によって形成されるヒストグラムは、エネルギー表面の地球的最小値を与える。 回路深さは電子番号n_eのO(n_e^2 poly(log n_e))としてスケールし、余剰O(n_e log n_e)量子ビットが利用可能であればO(n_e poly(log n_e))に縮小できる。 我々は数値シミュレーションによりその計画を裏付ける。 新しい効率的なスキームは、量子コンピュータ上で実用的な量子化学のスケーラビリティを達成するのに役立つだろう。 このスキームの特別な場合として、荷電粒子のみからなる古典的な体系が認められる。 また、ノイズの多い中間規模量子(NISQ)デバイスにおける回路深度を優先する変動計算に適応する手法についても検討する。

We propose a nonvariational scheme for geometry optimization of molecules for the first-quantized eigensolver, a recently proposed framework for quantum chemistry using the probabilistic imaginary-time evolution (PITE) on a quantum computer. While the electrons in a molecule are treated in the scheme as quantum mechanical particles, the nuclei are treated as classical point charges. We encode both electronic states and candidate molecular geometries as a superposition of many-qubit states, leading to quantum advantage. The histogram formed by outcomes of repeated measurements gives the global minimum of the energy surface. We demonstrate that the circuit depth scales as O (n_e^2 poly(log n_e)) for the electron number n_e, which can be reduced to O (n_e poly(log n_e)) if extra O (n_e log n_e) qubits are available. We corroborate the scheme via numerical simulations. The new efficient scheme will be helpful for achieving scalability of practical quantum chemistry on quantum computers. As a special case of the scheme, a classical system composed only of charged particles is admitted. We also examine the scheme adapted to variational calculations that prioritize saving circuit depths for noisy intermediate-scale quantum (NISQ) devices.
翻訳日:2023-11-06 18:45:53 公開日:2023-11-03
# ノード分類のためのグラフデータセットのキャラクタリゼーション:ホモフィリー・ヘテロフィックな二分法とそれ以降

Characterizing Graph Datasets for Node Classification: Homophily-Heterophily Dichotomy and Beyond ( http://arxiv.org/abs/2209.06177v3 )

ライセンス: Link先を確認
Oleg Platonov, Denis Kuznedelev, Artem Babenko, Liudmila Prokhorenkova(参考訳) ホモフィリー(英: Homophily)は、類似したノードを接続するエッジの傾向を記述するグラフ特性である。 異種グラフは標準的なメッセージパスグラフニューラルネットワーク(GNN)では困難であると考えられており、この設定のための効率的な手法の開発に多くの努力が払われている。 しかし、文献には相同性に関する普遍的に合意された尺度は存在しない。 本研究では, 一般に用いられるホモフィリ測度が, 異なるデータセット間でのホモフィリレベルの比較を阻害する重要な欠点を持つことを示す。 このために、適切なホモフィリ測度の望ましい性質を定式化し、どの測度がどの性質を満たすかを検証する。 特に,調整ホモフィアと呼ばれる尺度は他の一般的なホモフィア指標よりも望ましい性質を満たすが,グラフ機械学習の文献では滅多に用いられないことを示す。 そして、ホモフィリーヘテロフィリー二分法を超えて、異なるヘテロフィリーを更に区別できる新しい特徴を提案する。 提案するラベル情報度(li)は、隣人のラベルがノードのラベルについてどれだけの情報を提供するかを示す。 この尺度が重要な望ましい性質を満たすことを証明します。 また,li が gnn の性能とホモフィイ測度によく一致することを実証的に観察し,グラフ構造の特徴として有用であることを確認した。

Homophily is a graph property describing the tendency of edges to connect similar nodes; the opposite is called heterophily. It is often believed that heterophilous graphs are challenging for standard message-passing graph neural networks (GNNs), and much effort has been put into developing efficient methods for this setting. However, there is no universally agreed-upon measure of homophily in the literature. In this work, we show that commonly used homophily measures have critical drawbacks preventing the comparison of homophily levels across different datasets. For this, we formalize desirable properties for a proper homophily measure and verify which measures satisfy which properties. In particular, we show that a measure that we call adjusted homophily satisfies more desirable properties than other popular homophily measures while being rarely used in graph machine learning literature. Then, we go beyond the homophily-heterophily dichotomy and propose a new characteristic that allows one to further distinguish different sorts of heterophily. The proposed label informativeness (LI) characterizes how much information a neighbor's label provides about a node's label. We prove that this measure satisfies important desirable properties. We also observe empirically that LI better agrees with GNN performance compared to homophily measures, which confirms that it is a useful characteristic of the graph structure.
翻訳日:2023-11-06 18:45:06 公開日:2023-11-03
# マルチタスク問題のための特徴空間のベイズ学習

Bayesian learning of feature spaces for multitasks problems ( http://arxiv.org/abs/2209.03028v2 )

ライセンス: Link先を確認
Carlos Sevilla-Salcedo, Ascensi\'on Gallardo-Antol\'in, Vanessa G\'omez-Verdejo, Emilio Parrado-Hern\'andez(参考訳) 本稿では,Kernel Machines(KMs)とExtreme Learning Machines(ELMs)をRBFカーネルのRandom Fourier Features(RFFs)近似を利用して接続するマルチタスク回帰手法を提案する。 この意味で、本論文の貢献の一つは、提案されたモデルにおいて、km と elm の定式化は、同じ硬貨の2つの側面と見なすことができることを示している。 提案されたモデルは RFF-BLR と呼ばれ、2つの主要な設計目標に同時に対処するベイジアンフレームワークの上に立つ。 一方、RBFカーネルを組み込んだKMをベースとしたマルチタスク回帰器に適合する。 一方、EMMビューでマルチアウトプットの間隔を促進する共通タスクを事前に導入することが可能である。 このベイズ的アプローチは、KMとEMMの両方の視点を同時に考慮するのに役立つ (i)確率的枠組みにおけるrbfカーネルパラメータ$\gamma$の最適化 (ii)モデルの複雑さの最適化、 (iii)タスク間での知識の効率的な伝達。 実験の結果,マルチタスク非線形回帰における最先端手法と比較して,このフレームワークの性能が大幅に向上する可能性が示唆された。

This paper introduces a novel approach for multi-task regression that connects Kernel Machines (KMs) and Extreme Learning Machines (ELMs) through the exploitation of the Random Fourier Features (RFFs) approximation of the RBF kernel. In this sense, one of the contributions of this paper shows that for the proposed models, the KM and the ELM formulations can be regarded as two sides of the same coin. These proposed models, termed RFF-BLR, stand on a Bayesian framework that simultaneously addresses two main design goals. On the one hand, it fits multitask regressors based on KMs endowed with RBF kernels. On the other hand, it enables the introduction of a common-across-tasks prior that promotes multioutput sparsity in the ELM view. This Bayesian approach facilitates the simultaneous consideration of both the KM and ELM perspectives enabling (i) the optimisation of the RBF kernel parameter $\gamma$ within a probabilistic framework, (ii) the optimisation of the model complexity, and (iii) an efficient transfer of knowledge across tasks. The experimental results show that this framework can lead to significant performance improvements compared to the state-of-the-art methods in multitask nonlinear regression.
翻訳日:2023-11-06 18:44:42 公開日:2023-11-03
# この世界のニュートリノ振動から

Out of this world neutrino oscillations ( http://arxiv.org/abs/2208.10567v2 )

ライセンス: Link先を確認
Tony Gherghetta and Andrey Shkerin(参考訳) 量子力学の多世界的定式化を用いて解釈できる量子場理論の因果的・非線形・状態依存的な修正によって、真空ニュートリノ振動がどのように影響を受けるかを研究する。 この効果は、ニュートリノ質量固有状態間の非線形干渉を引き起こすhiggs-ニュートリノ湯川相互作用によって引き起こされる。 これにより、振動周波数を変化させることなく、光、活性ニュートリノの振動パターンがわずかに変化する。 振動が消失する大きなベースラインでは、非線形効果も抑制され、それらが環境と絡み合うと、質量固有状態間の相関は発生しない。 この例は、非線形量子力学や場理論の効果を計算する方法を提供し、多くの世界の物理的現実を探究する。

We study how vacuum neutrino oscillations can be affected by a causal, nonlinear and state-dependent modification of quantum field theory that may be interpreted using the many-worlds formulation of quantum mechanics. The effect is induced by a Higgs-neutrino Yukawa interaction that causes a nonlinear interference between the neutrino mass eigenstates. This leads to a tiny change in the oscillation pattern of light, active neutrinos without altering the oscillation frequencies. At large baselines where the oscillations disappear, the nonlinear effect is also suppressed and does not source correlations between the mass eigenstates once they are entangled with the environment. Our example provides a way to compute effects of nonlinear quantum mechanics and field theory that may probe the possible physical reality of many worlds.
翻訳日:2023-11-06 18:44:24 公開日:2023-11-03
# 量子状態トモグラフィーのための因子および投射勾配勾配の統一

Unifying the factored and projected gradient descent for quantum state tomography ( http://arxiv.org/abs/2207.05341v3 )

ライセンス: Link先を確認
Yong Wang, Lijun Liu, Shuming Cheng, Li Li, Jie Chen(参考訳) 多体量子システムの状態の再構築は、量子情報処理において極めて重要であるが、次元の呪いのために非常に困難である。 本研究では, 量子トモグラフィ法を用いて, 階数不足問題に対処するための状態分解法と投影法を統一し, 運動量加速型rprop勾配アルゴリズムを組み込んで最適化プロセスを高速化する手法を提案する。 特に、状態因子分解法と p-次絶対写像法を共同で導入し、最大度関数で学習される状態行列の正値性と階数を保証する。 さらに,提案手法は,他のQSTアルゴリズムのトモグラフィ精度を大幅に向上させることができる。 最後に、数値実験により、統一戦略はランク不足問題に対処でき、より高速な収束と優れた純度ロバスト性を持つことが示される。 提案手法はランダムな11量子ビット混合状態のフルトモグラフィーを1分で達成できることがわかった。

Reconstructing the state of many-body quantum systems is of fundamental importance in quantum information tasks, but extremely challenging due to the curse of dimensionality. In this work, we present an efficient quantum tomography approach that unifies the state factored and projected methods to tackle the rank-deficient issue and incorporates a momentum-accelerated Rprop gradient algorithm to speed up the optimization process. In particular, the techniques of state factorization and P-order absolute map are jointly introduced to ensure both the positivity and rank of state matrices learned in the maximum likelihood function. Further, the proposed state-mapping method can substantially improve the tomography accuracy of other QST algorithms. Finally, numerical experiments demonstrate that the unified strategy is able to tackle the rank-deficient problem and admit a faster convergence and excellent purity robustness. We find that our method can accomplish the task of full tomography of random 11-qubit mixed states within one minute.
翻訳日:2023-11-06 18:44:12 公開日:2023-11-03
# クラスター化塩分予測

Clustered Saliency Prediction ( http://arxiv.org/abs/2207.02205v2 )

ライセンス: Link先を確認
Rezvan Sherkati, James J. Clark(参考訳) 本稿では,画像のサリエンス予測のための新しい手法であるClustered Saliency Predictionを提案する。 本手法は,個人的特徴と既知のサリエンシマップに基づいて,被験者をクラスタに分割し,クラスタラベルに条件付き画像サリエンスモデルを生成する。 本研究では,個人的特徴因子の選択重みを用いた個人別サプライエンシマップの公開データセットを用いて,被験者をクラスタリングする手法を提案する。 本稿では,画像刺激とユニバーサル・サリエンシマップを用いて,クラスタごとのサリエンシマップを予測するマルチドメイン・サリエンシ変換モデルを提案する。 ユニバーサル・サリエンシ・マップを得るために,DeepGaze IIE,ML-Net,SalGANといった最先端の手法を適用し,その有効性を比較した。 本稿では,クラスタ化サリエンシ予測手法が汎用サリエンシ予測モデルより優れていることを示す。 また,本アルゴリズムで得られたクラスタを用いて,クラスタ化塩分予測の結果をベースライン法と比較することにより,クラスタリング手法の有効性を実証する。 最後に,新しい人を最も適切なクラスタに配置し,実験でその有用性を証明する手法を提案する。

We present a new method for image salience prediction, Clustered Saliency Prediction. This method divides subjects into clusters based on their personal features and their known saliency maps, and generates an image salience model conditioned on the cluster label. We test our approach on a public dataset of personalized saliency maps and cluster the subjects using selected importance weights for personal feature factors. We propose the Multi-Domain Saliency Translation model which uses image stimuli and universal saliency maps to predict saliency maps for each cluster. For obtaining universal saliency maps, we applied various state-of-the-art methods, DeepGaze IIE, ML-Net and SalGAN, and compared their effectiveness in our system. We show that our Clustered Saliency Prediction technique outperforms the universal saliency prediction models. Also, we demonstrate the effectiveness of our clustering method by comparing the results of Clustered Saliency Prediction using clusters obtained by our algorithm with some baseline methods. Finally, we propose an approach to assign new people to their most appropriate cluster and prove its usefulness in the experiments.
翻訳日:2023-11-06 18:43:54 公開日:2023-11-03
# LIFニューロントレーニングの安定化

Stabilizing the LIF Neuron Training ( http://arxiv.org/abs/2202.00282v3 )

ライセンス: Link先を確認
Luca Herranz-Celotti and Jean Rouat(参考訳) スパイキングニューロモルフィックコンピューティングは、人工知能エネルギー効率を改善するためにバイナリアクティビティを使用する。 しかし、バイナリアクティビティの非滑らかさは、Deep Learningのパフォーマンスギャップを埋めるために、Surrogate Gradients (SG)と呼ばれる近似勾配を必要とする。 文献ではいくつかのSGが提案されているが、与えられたタスクやネットワークに対して最適なSGを決定する方法は不明である。 ハイパパラメータの探索に費用がかかるため、ほとんどのSG形状で優れた性能が得られる。 そこで本研究では,様々なストレス試験における最適SGを実験的に理論的に定義し,今後のグリッドサーチの必要性を低減することを目的とする。 このような作業のギャップを理解するために、より複雑なタスクやネットワークは、たとえ高速シグモノイドの誘導体がタスクやネットワーク全体で他のSGよりも幅広い学習率で優れているとしても、より慎重にSGを選択する必要があることを示す。 そこで我々は,最も一般的なスパイクアーキテクチャであるLeaky Integrate and Fire (LIF)をトレーニングする前に,初期化とSG形状を選択するための安定性に基づく理論的手法を設計する。 本手法は, 神経型文献では非標準である初期発火における高発火率の使用を示唆するものであり, 徐々に導入される疎度促進損失項と組み合わせることで, SG形状により, より一般化が期待できることを示す。 我々の安定性に基づく理論解は、SGと初期化を発見し、実験により精度が向上する。 我々は,sgの減衰,鋭さ,テールフェットネスの広範囲なグリッド探索の必要性を低減できることを示す。

Spiking Neuromorphic Computing uses binary activity to improve Artificial Intelligence energy efficiency. However, the non-smoothness of binary activity requires approximate gradients, known as Surrogate Gradients (SG), to close the performance gap with Deep Learning. Several SG have been proposed in the literature, but it remains unclear how to determine the best SG for a given task and network. Good performance can be achieved with most SG shapes, after a costly search of hyper-parameters. Thus, we aim at experimentally and theoretically define the best SG across different stress tests, to reduce future need of grid search. To understand the gap for this line of work, we show that more complex tasks and networks need more careful choice of SG, even if overall the derivative of the fast sigmoid outperforms other SG across tasks and networks, for a wide range of learning rates. We therefore design a stability based theoretical method to choose initialization and SG shape before training on the most common spiking architecture, the Leaky Integrate and Fire (LIF). Since our stability method suggests the use of high firing rates at initialization, which is non-standard in the neuromorphic literature, we show that high initial firing rates, combined with a sparsity encouraging loss term introduced gradually, can lead to better generalization, depending on the SG shape. Our stability based theoretical solution, finds a SG and initialization that experimentally result in improved accuracy. We show how it can be used to reduce the need of extensive grid-search of dampening, sharpness and tail-fatness of the SG.
翻訳日:2023-11-06 18:42:13 公開日:2023-11-03
# 半教師付き学習のためのグラフニューラルネットワーク

Graph Neural Diffusion Networks for Semi-supervised Learning ( http://arxiv.org/abs/2201.09698v2 )

ライセンス: Link先を確認
Wei Ye, Zexi Huang, Yunqi Hong, Ambuj Singh(参考訳) Graph Convolutional Networks (GCN)は、グラフに基づく半教師付き学習のパイオニアモデルである。 しかし、GCNは疎ラベルグラフではうまく機能しない。 その2層バージョンはラベル情報をグラフ構造全体に効果的に伝播することができない(すなわち、スムーシング問題)が、深いバージョンはスムーヘンを過剰に扱い、訓練が難しい(すなわち、オーバースモーシング問題)。 これら2つの問題を解決するために,単一の層内の頂点の局所的および大域的近傍情報を利用するGND-Nets(Graph Neural Diffusion Networks)というグラフニューラルネットワークを提案する。 浅層ネットワークの活用は, 局所的およびグローバル的近傍情報を活用することで, 過喫煙問題を緩和する。 頂点の局所的および大域的近傍情報の利用は、ニューラルネットワークを従来の線形および非線形グラフ拡散に統合するニューラル拡散と呼ばれる新しいグラフ拡散法によって達成される。 ニューラルネットワークの採用により、ニューラルネットワークの拡散は異なるデータセットに適応できる。 各種スパースラベルグラフの広範囲な実験により、GND-Netsの有効性と効率を最先端のアプローチと比較して検証する。

Graph Convolutional Networks (GCN) is a pioneering model for graph-based semi-supervised learning. However, GCN does not perform well on sparsely-labeled graphs. Its two-layer version cannot effectively propagate the label information to the whole graph structure (i.e., the under-smoothing problem) while its deep version over-smoothens and is hard to train (i.e., the over-smoothing problem). To solve these two issues, we propose a new graph neural network called GND-Nets (for Graph Neural Diffusion Networks) that exploits the local and global neighborhood information of a vertex in a single layer. Exploiting the shallow network mitigates the over-smoothing problem while exploiting the local and global neighborhood information mitigates the under-smoothing problem. The utilization of the local and global neighborhood information of a vertex is achieved by a new graph diffusion method called neural diffusions, which integrate neural networks into the conventional linear and nonlinear graph diffusions. The adoption of neural networks makes neural diffusions adaptable to different datasets. Extensive experiments on various sparsely-labeled graphs verify the effectiveness and efficiency of GND-Nets compared to state-of-the-art approaches.
翻訳日:2023-11-06 18:41:45 公開日:2023-11-03
# 強化学習における一般化のための特徴認識型反復モジュール

Feature-Attending Recurrent Modules for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2112.08369v3 )

ライセンス: Link先を確認
Wilka Carvalho, Andrew Lampinen, Kyriacos Nikiforou, Felix Hill, Murray Shanahan(参考訳) 多くの重要なタスクはオブジェクトの観点で定義される。 これらのタスクを一般化するために、強化学習(RL)エージェントは、オブジェクトが誘導する構造を利用する必要がある。 以前の作業では、ハードコードされたオブジェクト中心の特徴、複雑なオブジェクト中心生成モデルの使用、あるいは局所的な空間的特徴を用いた更新状態のいずれかがあった。 しかし、これらのアプローチは一般のRLエージェントの実現に限られている。 そこで本研究では,空間的および時間的正則性を捉えるための,単純で広く適用可能な帰納的バイアスに依存する状態表現を学習するためのアーキテクチャである"feature-attending recurrent modules" (farm)を提案する。 FARMは複数のモジュールにまたがる状態表現を学習し、それぞれが表現力のある特徴注意機構を備えた時空間的特徴に対応する。 これにより、オブジェクト中心のタスクを一般化するrlエージェントの能力が向上する。 2D環境と3D環境の両方でタスクスイートを研究し、注意力や複数のモジュールを利用する競合アーキテクチャと比較して、FARMがより一般化されていることを発見した。

Many important tasks are defined in terms of object. To generalize across these tasks, a reinforcement learning (RL) agent needs to exploit the structure that the objects induce. Prior work has either hard-coded object-centric features, used complex object-centric generative models, or updated state using local spatial features. However, these approaches have had limited success in enabling general RL agents. Motivated by this, we introduce "Feature-Attending Recurrent Modules" (FARM), an architecture for learning state representations that relies on simple, broadly applicable inductive biases for capturing spatial and temporal regularities. FARM learns a state representation that is distributed across multiple modules that each attend to spatiotemporal features with an expressive feature attention mechanism. We show that this improves an RL agent's ability to generalize across object-centric tasks. We study task suites in both 2D and 3D environments and find that FARM better generalizes compared to competing architectures that leverage attention or multiple modules.
翻訳日:2023-11-06 18:41:25 公開日:2023-11-03
# 逆ゼロエラーチャネル符号化におけるハーディの非局所相関の利点

Advantage of Hardy's Nonlocal Correlation in Reverse Zero-Error Channel Coding ( http://arxiv.org/abs/2303.06848v2 )

ライセンス: Link先を確認
Mir Alimuddin, Ananya Chakraborty, Govind Lal Sidhardh, Ram Krishna Patra, Samrat Sen, Snehasish Roy Chowdhury, Sahil Gopalkrishna Naik, Manik Banik(参考訳) ハーディの議論は量子非局所性のエレガントな証明を構成する。 本稿では,ハーディの非局所的相関のエキゾチックな応用を,双方向通信システムに報告する。 我々は、通信チャネルがハーディの非局所性を示す無信号相関(non-signaling correlation)で支援されている場合にのみ、送信者から受信者への1ドル分の通信を通じて、ポジティブな支払いが行えるタスクを考案する。 これにより,より低い入力出力ノイズレスチャネルで高い入力出力ノイズをシミュレートし,事前共有相関を補助する,相関支援逆ゼロエラーチャネル符号化シナリオにおける直観的な逆結果を確立することができる。 このような逆ゼロエラーチャネルシミュレーションタスクは、前状態が任意に少量の絡み合いを持つ場合でも、最大エンタングル状態の補助よりも、非最大エンタングル状態の方が好ましいことを示している。 我々の研究は、局所的な操作の運用パラダイムと古典的な通信の制限の中で、絡み合った資源の構造がより複雑であることを証明している。

Hardy's argument constitutes an elegant proof of quantum nonlocality. In this work, we report an exotic application of Hardy's nonlocal correlations in two-party communication setup. We come up with a task, wherein a positive payoff can be through an $1$ bit of communication from the sender to the receiver if and only if the communication channel is assisted with a no-signaling correlation exhibiting Hardy's nonlocality. This further prompts us to establish a counter-intuitive result in correlation assisted reverse zero-error channel coding scenario, where the aim is to simulate a higher input-output noisy classical channel by a lower input-output noiseless one in assistance with pre-shared correlations. We show that there exist such reverse zero-error channel simulation tasks where non-maximally entangled states are preferable over the assistance with a maximally entangled state, even when the former states carry an arbitrarily small amount of entanglement. Our work thus establishes that within the operational paradigm of local operations and limited classical communication the structure of entangled resources is even more complex to characterize.
翻訳日:2023-11-06 18:33:52 公開日:2023-11-03
# 集合類似性行列を用いた多層ハイパーグラフクラスタリング

Multilayer hypergraph clustering using the aggregate similarity matrix ( http://arxiv.org/abs/2301.11657v3 )

ライセンス: Link先を確認
Kalle Alaluusua, Konstantin Avrachenkov, B. R. Vinay Kumar, Lasse Leskel\"a(参考訳) 我々は,ハイパーグラフ確率ブロックモデル (HSBM) の多層版におけるコミュニティ回復問題を考察する。 各層は、N頂点上のd-ユニフォームHSBMの独立実現と関連している。 一対の頂点に付随する超辺の集合数を含む類似性行列が与えられた場合、N頂点の非随伴群への分割を得ることが目的である。 本研究では,半定値プログラミング (sdp) の手法を調査し,モデルパラメータに関する情報理論的条件を得ることにより,アソートケースとディスソートケースの両方において,厳密なリカバリを保証する。

We consider the community recovery problem on a multilayer variant of the hypergraph stochastic block model (HSBM). Each layer is associated with an independent realization of a d-uniform HSBM on N vertices. Given the similarity matrix containing the aggregated number of hyperedges incident to each pair of vertices, the goal is to obtain a partition of the N vertices into disjoint communities. In this work, we investigate a semidefinite programming (SDP) approach and obtain information-theoretic conditions on the model parameters that guarantee exact recovery both in the assortative and the disassortative cases.
翻訳日:2023-11-06 18:33:33 公開日:2023-11-03
# アクティブラーニング評価の落とし穴を探る--有意義なパフォーマンス評価のための体系的枠組み

Navigating the Pitfalls of Active Learning Evaluation: A Systematic Framework for Meaningful Performance Assessment ( http://arxiv.org/abs/2301.10625v3 )

ライセンス: Link先を確認
Carsten T. L\"uth, Till J. Bungert, Lukas Klein, Paul F. Jaeger(参考訳) Active Learning (AL)は、ラベルなしデータのプールから最も情報性の高いサンプルをインタラクティブに選択することで、ラベル付けの負担を軽減することを目的としている。 近年,ALクエリ手法の改良に関する研究が盛んに行われているが,半教師付き(Semi-SL)や自己教師付き学習(Self-SL)といった新たなパラダイムや,分類器構成の簡易な最適化と比較して,ALの有効性を疑問視する研究もある。 このように、今日のAL文学は矛盾した、矛盾した風景を示しており、実践者がALをタスクに使用するかどうかと方法について不透明なままである。 本研究では,al法を体系的かつ現実的な評価が欠如していることから,この不整合が生じることを仮定する。 具体的には,al評価に必要な微妙な考察を反映した文献の5つの落とし穴を明らかにする。 さらに,これらの落とし穴を克服し,AL手法の性能に関する有意義な記述を可能にする評価フレームワークを提案する。 本プロトコルの妥当性を示すために,様々なデータセット,クエリメソッド,al設定,トレーニングパラダイムにまたがる画像分類に関する大規模実証研究とベンチマークを提案する。 本研究は,文献上の矛盾点を明らかにするとともに,実践者に対して手持ちの勧告を行うことを可能にした。 ベンチマークはhttps://github.com/IML-DKFZ/realistic-al.comにホストされている。

Active Learning (AL) aims to reduce the labeling burden by interactively selecting the most informative samples from a pool of unlabeled data. While there has been extensive research on improving AL query methods in recent years, some studies have questioned the effectiveness of AL compared to emerging paradigms such as semi-supervised (Semi-SL) and self-supervised learning (Self-SL), or a simple optimization of classifier configurations. Thus, today's AL literature presents an inconsistent and contradictory landscape, leaving practitioners uncertain about whether and how to use AL in their tasks. In this work, we make the case that this inconsistency arises from a lack of systematic and realistic evaluation of AL methods. Specifically, we identify five key pitfalls in the current literature that reflect the delicate considerations required for AL evaluation. Further, we present an evaluation framework that overcomes these pitfalls and thus enables meaningful statements about the performance of AL methods. To demonstrate the relevance of our protocol, we present a large-scale empirical study and benchmark for image classification spanning various data sets, query methods, AL settings, and training paradigms. Our findings clarify the inconsistent picture in the literature and enable us to give hands-on recommendations for practitioners. The benchmark is hosted at https://github.com/IML-DKFZ/realistic-al .
翻訳日:2023-11-06 18:33:23 公開日:2023-11-03
# 多周波フィルム強調学習のための大規模フィルムスタイルデータセット

A Large-scale Film Style Dataset for Learning Multi-frequency Driven Film Enhancement ( http://arxiv.org/abs/2301.08880v3 )

ライセンス: Link先を確認
Zinuo Li, Xuhang Chen, Shuqiang Wang, Chi-Man Pun(参考訳) 古典的なイメージスタイルであるフィルムは、写真産業全体にとって文化的に重要なものである。 しかし、フィルム写真は時間がかかり高価であり、より効率的なフィルム写真の収集方法が必要である。 これまで画像強調の分野で現れた多くのデータセットは、フィルム固有のものではない。 フィルムベースの画像スタイリング研究を容易にするため,大規模かつ高品質なフィルムスタイルデータセットであるFilmSetを構築した。 我々のデータセットには3つの異なるフィルムタイプと5000以上の高解像度画像が含まれている。 フィルムセット画像の特徴に触発されて,ラプラシアンピラミッドに基づく新たな枠組みである filmnet を提案する。 実験の結果,我々のモデルの性能は最先端技術よりも優れていることがわかった。 コードとデータのリンクは \url{https://github.com/CXH-Research/FilmNet} である。

Film, a classic image style, is culturally significant to the whole photographic industry since it marks the birth of photography. However, film photography is time-consuming and expensive, necessitating a more efficient method for collecting film-style photographs. Numerous datasets that have emerged in the field of image enhancement so far are not film-specific. In order to facilitate film-based image stylization research, we construct FilmSet, a large-scale and high-quality film style dataset. Our dataset includes three different film types and more than 5000 in-the-wild high resolution images. Inspired by the features of FilmSet images, we propose a novel framework called FilmNet based on Laplacian Pyramid for stylizing images across frequency bands and achieving film style outcomes. Experiments reveal that the performance of our model is superior than state-of-the-art techniques. The link of code and data is \url{https://github.com/CXH-Research/FilmNet}.
翻訳日:2023-11-06 18:32:57 公開日:2023-11-03
# Tracr: 解釈可能性研究所としてのコンパイルトランス

Tracr: Compiled Transformers as a Laboratory for Interpretability ( http://arxiv.org/abs/2301.05062v5 )

ライセンス: Link先を確認
David Lindner and J\'anos Kram\'ar and Sebastian Farquhar and Matthew Rahtz and Thomas McGrath and Vladimir Mikulik(参考訳) 人間の読みやすいプログラムを標準デコーダのみの変換モデルに"コンパイル"する方法を示す。 コンパイラであるTrcrは、既知の構造を持つモデルを生成する。 この構造は実験の設計に利用できる。 例えば、マルチステップアルゴリズムを実行するトランスフォーマーの「重ね合わせ」を研究するために使用します。 さらに、Trcrコンパイルされたモデルの既知の構造は、解釈可能性の評価のための基盤となる。 一般的に、トランスフォーマーが学んだ「プログラム」が不明であるため、解釈が成功したかどうかは不明である。 我々は,トークンの頻度計算,ソート,括弧チェックなどのプログラムを実装し,検証することで,このアプローチを実証する。 Tracrのオープンソース実装はhttps://github.com/google-deepmind/tracrで公開しています。

We show how to "compile" human-readable programs into standard decoder-only transformer models. Our compiler, Tracr, generates models with known structure. This structure can be used to design experiments. For example, we use it to study "superposition" in transformers that execute multi-step algorithms. Additionally, the known structure of Tracr-compiled models can serve as ground-truth for evaluating interpretability methods. Commonly, because the "programs" learned by transformers are unknown it is unclear whether an interpretation succeeded. We demonstrate our approach by implementing and examining programs including computing token frequencies, sorting, and parenthesis checking. We provide an open-source implementation of Tracr at https://github.com/google-deepmind/tracr.
翻訳日:2023-11-06 18:32:43 公開日:2023-11-03
# PMT-IQA:ブラインド画像品質評価のためのプログレッシブマルチタスク学習

PMT-IQA: Progressive Multi-task Learning for Blind Image Quality Assessment ( http://arxiv.org/abs/2301.01182v2 )

ライセンス: Link先を確認
Qingyi Pan, Ning Guo, Letu Qingge, Jingyi Zhang, Pei Yang(参考訳) ブラインド画像品質評価(BIQA)は、歪みの多様性と画像内容の変動により、異なるスケールをまたがる歪みパターンを複雑化し、BIQAの回帰問題の難しさを増すため、依然として困難である。 しかし,既存のBIQA手法では,マルチスケールの歪みパターンや画像内容の考察に失敗することが多く,回帰モデルの性能向上のための学習戦略についてはほとんど研究されていない。 本稿では,マルチスケール特徴抽出モジュール (MS) とプログレッシブマルチタスク学習モジュール (PMT) を含む簡易かつ効果的なプログレッシブ・マルチタスク画像品質評価 (PMT-IQA) モデルを提案する。 提案したPMT-IQAモデルの有効性を検証するため,広範に使用されている4つの公開データセットに対して実験を行い,実験結果から,PMT-IQAの性能は比較手法よりも優れており,MSおよびPMTモジュールがモデルの性能を向上させることが示された。

Blind image quality assessment (BIQA) remains challenging due to the diversity of distortion and image content variation, which complicate the distortion patterns crossing different scales and aggravate the difficulty of the regression problem for BIQA. However, existing BIQA methods often fail to consider multi-scale distortion patterns and image content, and little research has been done on learning strategies to make the regression model produce better performance. In this paper, we propose a simple yet effective Progressive Multi-Task Image Quality Assessment (PMT-IQA) model, which contains a multi-scale feature extraction module (MS) and a progressive multi-task learning module (PMT), to help the model learn complex distortion patterns and better optimize the regression issue to align with the law of human learning process from easy to hard. To verify the effectiveness of the proposed PMT-IQA model, we conduct experiments on four widely used public datasets, and the experimental results indicate that the performance of PMT-IQA is superior to the comparison approaches, and both MS and PMT modules improve the model's performance.
翻訳日:2023-11-06 18:32:34 公開日:2023-11-03
# COVID-19の大規模およびPCRによる音声データセット

A large-scale and PCR-referenced vocal audio dataset for COVID-19 ( http://arxiv.org/abs/2212.07738v4 )

ライセンス: Link先を確認
Jobie Budd, Kieran Baker, Emma Karoune, Harry Coppock, Selina Patel, Ana Tendero Ca\~nadas, Alexander Titcomb, Richard Payne, David Hurley, Sabrina Egglestone, Lorraine Butler, Jonathon Mellor, George Nicholson, Ivan Kiskin, Vasiliki Koutra, Radka Jersakova, Rachel A. McKendry, Peter Diggle, Sylvia Richardson, Bj\"orn W. Schuller, Steven Gilmour, Davide Pigoli, Stephen Roberts, Josef Packham, Tracey Thornley, Chris Holmes(参考訳) 英国のCOVID-19 Vocal Audio Datasetは、SARS-CoV-2感染状況や関連する呼吸器症状を音声で分類する機械学習モデルのトレーニングと評価を目的として設計されている。 イギリス保健保安庁(英語版)は2021年3月から2022年3月までイギリスにおいて、アルファとデルタsars-cov-2の変種といくつかのomicron変種が優占された際に、テスト・トレースプログラムとreact-1調査を通じて自発的な参加者を募集した。 SARS-CoV-2(SARS-CoV-2)試験結果と相関し, 自己申告症状, 呼吸状態データとともに, 音声記録, 吐き気, 発声の音声記録を「Speak up to beat coronavirus」デジタル調査で収集した。 英国の新型コロナウイルス(COVID-19)Vocal Audio DatasetはSARS-CoV-2 PCR参照オーディオ記録の最大コレクションである。 PCRの結果は72,999人中70,794人,25,776人中24,155人であった。 呼吸器症状は45.62%であった。 このデータセットは、11.30%の参加者が喘息を報告し、27.20%がインフルエンザPCR検査の結果である。

The UK COVID-19 Vocal Audio Dataset is designed for the training and evaluation of machine learning models that classify SARS-CoV-2 infection status or associated respiratory symptoms using vocal audio. The UK Health Security Agency recruited voluntary participants through the national Test and Trace programme and the REACT-1 survey in England from March 2021 to March 2022, during dominant transmission of the Alpha and Delta SARS-CoV-2 variants and some Omicron variant sublineages. Audio recordings of volitional coughs, exhalations, and speech were collected in the 'Speak up to help beat coronavirus' digital survey alongside demographic, self-reported symptom and respiratory condition data, and linked to SARS-CoV-2 test results. The UK COVID-19 Vocal Audio Dataset represents the largest collection of SARS-CoV-2 PCR-referenced audio recordings to date. PCR results were linked to 70,794 of 72,999 participants and 24,155 of 25,776 positive cases. Respiratory symptoms were reported by 45.62% of participants. This dataset has additional potential uses for bioacoustics research, with 11.30% participants reporting asthma, and 27.20% with linked influenza PCR test results.
翻訳日:2023-11-06 18:31:48 公開日:2023-11-03
# ファウショット行動認識のためのマルチモーダルプロトタイプ強化ネットワーク

Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition ( http://arxiv.org/abs/2212.04873v2 )

ライセンス: Link先を確認
Xinzhe Ni, Yong Liu, Hao Wen, Yatai Ji, Jing Xiao, Yujiu Yang(参考訳) 数少ないアクション認識のための現在の方法は、プロトタイプの重要性を示すprotonetに続くメトリック学習フレームワークに主に当てはまる。 比較的良好な性能を発揮するが、ラベルテキストなど、マルチモーダル情報の影響は無視される。 本研究では,ラベルテキストのセマンティック情報をマルチモーダル情報として利用してプロトタイプの強化を図る,MORN(MultimOdal PRototype-ENhanced Network)を提案する。 CLIPビジュアルエンコーダと冷凍CLIPテキストエンコーダを導入し、優れたマルチモーダル初期化機能を実現する。 そして、ビジュアルフローでは、例えば、時間関係クロストランスフォーマ(trx)モジュールによってビジュアルプロトタイプが計算される。 テキストフローでは、テキストプロトタイプを得るためにセマンティックエンハンス(se)モジュールとインフレータリング操作を用いる。 最終的なマルチモーダルプロトタイプは、マルチモーダルプロトタイプ強化(MPE)モジュールによって計算される。 さらに,プロトタイプの品質を評価するためにPRIDE (PRototype SImilarity DiffErence) を定義し,MORNのプロトタイプレベルと有効性の改善を検証する。 我々は4つの一般的なデータセットについて広範な実験を行い、MORNはHMDB51, UCF101, Kinetics, SSv2で最先端の結果を得る。 PRIDEをトレーニングステージに挿入すると、さらに性能が向上する。

Current methods for few-shot action recognition mainly fall into the metric learning framework following ProtoNet, which demonstrates the importance of prototypes. Although they achieve relatively good performance, the effect of multimodal information is ignored, e.g. label texts. In this work, we propose a novel MultimOdal PRototype-ENhanced Network (MORN), which uses the semantic information of label texts as multimodal information to enhance prototypes. A CLIP visual encoder and a frozen CLIP text encoder are introduced to obtain features with good multimodal initialization. Then in the visual flow, visual prototypes are computed by a Temporal-Relational CrossTransformer (TRX) module for example. In the text flow, a semantic-enhanced (SE) module and an inflating operation are used to obtain text prototypes. The final multimodal prototypes are then computed by a multimodal prototype-enhanced (MPE) module. Besides, we define a PRototype SImilarity DiffErence (PRIDE) to evaluate the quality of prototypes, which is used to verify our improvement on the prototype level and effectiveness of MORN. We conduct extensive experiments on four popular datasets, and MORN achieves state-of-the-art results on HMDB51, UCF101, Kinetics and SSv2. When plugging PRIDE into the training stage, the performance can be further improved.
翻訳日:2023-11-06 18:31:25 公開日:2023-11-03
# 遺伝的多目的最適化に基づく四極磁石の設計

Quadrupole Magnet Design based on Genetic Multi-Objective Optimization ( http://arxiv.org/abs/2211.09580v2 )

ライセンス: Link先を確認
Eric Diehl, Moritz von Tresckow, Lou Scholtissek, Dimitrios Loukrezis, Nicolas Marsic, Wolfgang F. O. M\"uller, Herbert De Gersem(参考訳) 本研究は,多目的最適化問題に適応した遺伝的アルゴリズムを用いて,四極磁石の形状を最適化することを提案する。 そのため、nsga-iiiとして知られる非ドーミネーションソート遺伝アルゴリズムが用いられる。 マグネットの開口部における高い磁場品質が保証されると共に、磁石設計のコスト効率が維持されるように最適化目標を選定する。 フィールド品質は四重極の静磁場有限要素モデルを用いて計算され、その結果は後処理され最適化アルゴリズムに統合される。 最適化結果を広範囲に分析し,パレート前部運動と最適設計の同定を行った。

This work suggests to optimize the geometry of a quadrupole magnet by means of a genetic algorithm adapted to solve multi-objective optimization problems. To that end, a non-domination sorting genetic algorithm known as NSGA-III is used. The optimization objectives are chosen such that a high magnetic field quality in the aperture of the magnet is guaranteed, while simultaneously the magnet design remains cost-efficient. The field quality is computed using a magnetostatic finite element model of the quadrupole, the results of which are post-processed and integrated into the optimization algorithm. An extensive analysis of the optimization results is performed, including Pareto front movements and identification of best designs.
翻訳日:2023-11-06 18:31:04 公開日:2023-11-03
# separable pinn:物理形ニューラルネットワークにおける次元の呪いの緩和

Separable PINN: Mitigating the Curse of Dimensionality in Physics-Informed Neural Networks ( http://arxiv.org/abs/2211.08761v3 )

ライセンス: Link先を確認
Junwoo Cho, Seungtae Nam, Hyunmo Yang, Seok-Bae Yun, Youngjoon Hong, Eunbyung Park(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、前方および逆問題の両方に新しいデータ駆動型PDEソルバとして登場した。 有望だが、解を得るための高価な計算コストは、しばしば広い適用可能性を制限する。 自動微分(AD)の計算は、PINNのトレーニングにおいて前方モードADを活用することで大幅に削減できることを示す。 しかし、従来の PINN に対するフォワードモード AD の単純適用により、計算量が増加し、実用的利益が失われる。 そこで我々は,より効率的な計算を行うために,前方移動ADを容易にするネットワークアーキテクチャであるセパブルPINN(SPINN)を提案する。 SPINNは従来のPINNではポイントワイド処理ではなく軸単位で動作し、ネットワークフォワードパスの数を減らす。 また,標準PINNの計算とメモリコストはグリッドの解像度とともに指数関数的に増大するが,我々のモデルでは,次元の呪いを軽減し,非常に影響を受けにくい。 各種PDEシステムにおいて,学習時間を大幅に削減し,比較精度を向上し,本モデルの有効性を示す。 プロジェクトページ: https://jwcho5576.github.io/spinn/

Physics-informed neural networks (PINNs) have emerged as new data-driven PDE solvers for both forward and inverse problems. While promising, the expensive computational costs to obtain solutions often restrict their broader applicability. We demonstrate that the computations in automatic differentiation (AD) can be significantly reduced by leveraging forward-mode AD when training PINN. However, a naive application of forward-mode AD to conventional PINNs results in higher computation, losing its practical benefit. Therefore, we propose a network architecture, called separable PINN (SPINN), which can facilitate forward-mode AD for more efficient computation. SPINN operates on a per-axis basis instead of point-wise processing in conventional PINNs, decreasing the number of network forward passes. Besides, while the computation and memory costs of standard PINNs grow exponentially along with the grid resolution, that of our model is remarkably less susceptible, mitigating the curse of dimensionality. We demonstrate the effectiveness of our model in various PDE systems by significantly reducing the training run-time while achieving comparable accuracy. Project page: https://jwcho5576.github.io/spinn/
翻訳日:2023-11-06 18:30:48 公開日:2023-11-03
# 若者, 年長者, 速い人, 遅い人: 生産性クラスとランクの進歩に関する大規模研究

The Young and the Old, the Fast and the Slow: A Large-Scale Study of Productivity Classes and Rank Advancement ( http://arxiv.org/abs/2211.06319v2 )

ライセンス: Link先を確認
Marek Kwiek and Wojciech Roszka(参考訳) ポーランド科学, 技術, 工学, 数学, 医学 (stemm) の科学者 (n = 16,083) を多数調査し, ランク向上と生産性について検討した。 これまで無視されていた2つの時間次元 - 昇進年齢と昇進速度 - を用いて、個々の伝記プロファイルと出版プロファイルを構築した。 我々は、分類的アプローチと、ジャーナルの正規化生産性の新しい方法論的アプローチを用いた。 全ての科学者は、異なる生産性、昇進年齢、昇進速度クラス(上位20%、中級60%、下位20%)に割り当てられた。 このパターンはあらゆる分野において一貫しており、若い昇進年齢階級(と速い昇進速度階級)の科学者は、現在最も生産的だった。 対照的に、過去の昇進年齢階級の科学者(および昇進速度の遅いクラス)は、現在最も生産性が低かった。 3大分野において,助教授の昇進年齢の生産性差は100~200% (全教授150~200%) であり,助教授の昇進速度差は80~150% (全教授100~70%) であった。 回帰分析の結果,トップ生産性クラスにおけるメンバーシップのオッズ比の推定値が得られた。 全ポーランド人の科学者と学者の国家登録財(n = 99,935)から収集したデータと、スコプスで索引づけされたすべてのポーランド語の論文のメタデータを組み合わせる(n = 935,167)。

We examined a large population of Polish science, technology, engineering, mathematics and medicine (STEMM) scientists (N = 16,083) to study rank advancement and productivity. We used two previously neglected time dimensions - promotion age and promotion speed - to construct individual biographical profiles and publication profiles. We used a classificatory approach and the new methodological approach of journal prestige-normalized productivity. All scientists were allocated to different productivity, promotion age, and promotion speed classes (top 20%, middle 60%, and bottom 20%). The patterns were consistent across all disciplines: scientists in young promotion age classes (and fast promotion speed classes) in the past were currently the most productive. In contrast, scientists in old promotion age classes (and slow promotion speed classes) in the past were currently the least productive. In the three largest disciplines, the young-old promotion age productivity differential for associate professors was 100-200% (150-200% for full professors); and the fast-slow promotion speed productivity differential for associate professors was 80-150% (100-170% for full professors). Our results were confirmed by a regression analysis in which we found odds ratio estimates of membership in top productivity classes. We combined data collected from the national register of all Polish scientists and scholars (N = 99,935) and publication metadata on all Polish articles indexed in Scopus (N = 935,167).
翻訳日:2023-11-06 18:30:05 公開日:2023-11-03
# 複数仮説検定のためのコスト認識一般$\alpha$-investing

Cost-aware Generalized $\alpha$-investing for Multiple Hypothesis Testing ( http://arxiv.org/abs/2210.17514v3 )

ライセンス: Link先を確認
Thomas Cook and Harsh Vardhan Dubey and Ji Ah Lee and Guangyu Zhu and Tingting Zhao and Patrick Flaherty(参考訳) 非自明なデータ収集コストを伴う逐次多重仮説テストの問題を考える。 この問題は、例えば、病気過程の異なる発現遺伝子を同定するための生物学的実験を行う際に現れる。 この作業は、シーケンシャルなテスト環境での偽発見率の制御を可能にする一般的な$\alpha$-investingフレームワーク上に構築されている。 我々は,$\alpha$-wealth の長期漸近的挙動を理論的に解析し,$\alpha$-investing 決定規則におけるサンプルサイズについて考察する。 テストプロセスを自然とゲームとして構成することで、期待される$\alpha$-wealth reward(ero)を最適化し、各テストに最適なサンプルサイズを提供する決定ルールを構築します。 実証的な結果は、コストを意識したERO決定規則が、$n=1$の他のメソッドよりも偽のnull仮説を正しく拒否することを示している。 サンプルサイズが固定コストでない場合、EROはヌル仮説の先行値を使用して各テストにサンプル予算を適応的に割り当てる。 コストを考慮したERO投資を有限水平試験に拡張し、決定ルールが標本を非筋電図的に割り当てることを可能にする。 最後に、生物学的実験からの実際のデータセットに関する実証テストでは、コストを認識できるeroが複数のテストでサンプルの割り当てに対して個々のテストにサンプルの割り当てをバランスしていることが示されている。

We consider the problem of sequential multiple hypothesis testing with nontrivial data collection costs. This problem appears, for example, when conducting biological experiments to identify differentially expressed genes of a disease process. This work builds on the generalized $\alpha$-investing framework which enables control of the false discovery rate in a sequential testing setting. We make a theoretical analysis of the long term asymptotic behavior of $\alpha$-wealth which motivates a consideration of sample size in the $\alpha$-investing decision rule. Posing the testing process as a game with nature, we construct a decision rule that optimizes the expected $\alpha$-wealth reward (ERO) and provides an optimal sample size for each test. Empirical results show that a cost-aware ERO decision rule correctly rejects more false null hypotheses than other methods for $n=1$ where $n$ is the sample size. When the sample size is not fixed cost-aware ERO uses a prior on the null hypothesis to adaptively allocate of the sample budget to each test. We extend cost-aware ERO investing to finite-horizon testing which enables the decision rule to allocate samples in a non-myopic manner. Finally, empirical tests on real data sets from biological experiments show that cost-aware ERO balances the allocation of samples to an individual test against the allocation of samples across multiple tests.
翻訳日:2023-11-06 18:28:30 公開日:2023-11-03
# OpenAGI: LLMがドメインエキスパートと出会ったとき

OpenAGI: When LLM Meets Domain Experts ( http://arxiv.org/abs/2304.04370v6 )

ライセンス: Link先を確認
Yingqiang Ge, Wenyue Hua, Kai Mei, Jianchao Ji, Juntao Tan, Shuyuan Xu, Zelong Li, Yongfeng Zhang(参考訳) ヒューマンインテリジェンス(hi)は複雑なタスクを解決するための基本的なスキルの組み合わせに優れています。 この能力は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきであり、人工知能(AGI)に向けた複雑なタスク解決に専門家モデルを活用することができる。 大規模言語モデル(llm)は有望な学習能力と推論能力を示し、外部モデル、ツール、プラグイン、apiを効果的に活用して複雑な問題に取り組むことができる。 そこで本研究では,多段階実世界の課題を解決するためのオープンソース agi 研究開発プラットフォーム openagi を紹介する。 具体的には、OpenAGIはデュアル戦略を採用し、ベンチマークと評価のための標準ベンチマークタスクと、より拡張可能なモデル、ツール、プラグイン、創造的な問題解決のためのAPIを含むオープンなタスクを統合する。 タスクはLLMに自然言語クエリとして表示され、適切なモデルを選択し実行します。 また,タスクフィードバック(rltf)機構からの強化学習を提案し,タスク結果を用いてllmのタスク解決能力を改善し,自己改善型aiフィードバックループを作成する。 我々は、AGIが一意に定義された解決経路を持たない、広く多面的な研究課題であることを認めているが、LLMとドメイン固有の専門家モデルの統合は、人間における一般知能と専門知能の混在を反映したものであり、AGIに対する有望なアプローチである。 私たちは、openagiプロジェクトのコード、データセット、ベンチマーク、評価メソッド、uiデモをオープンソース化し、agiの進歩へのコミュニティの関与を促進しています。

Human Intelligence (HI) excels at combining basic skills to solve complex tasks. This capability is vital for Artificial Intelligence (AI) and should be embedded in comprehensive AI Agents, enabling them to harness expert models for complex task-solving towards Artificial General Intelligence (AGI). Large Language Models (LLMs) show promising learning and reasoning abilities, and can effectively use external models, tools, plugins, or APIs to tackle complex problems. In this work, we introduce OpenAGI, an open-source AGI research and development platform designed for solving multi-step, real-world tasks. Specifically, OpenAGI uses a dual strategy, integrating standard benchmark tasks for benchmarking and evaluation, and open-ended tasks including more expandable models, tools, plugins, or APIs for creative problem-solving. Tasks are presented as natural language queries to the LLM, which then selects and executes appropriate models. We also propose a Reinforcement Learning from Task Feedback (RLTF) mechanism that uses task results to improve the LLM's task-solving ability, which creates a self-improving AI feedback loop. While we acknowledge that AGI is a broad and multifaceted research challenge with no singularly defined solution path, the integration of LLMs with domain-specific expert models, inspired by mirroring the blend of general and specialized intelligence in humans, offers a promising approach towards AGI. We are open-sourcing the OpenAGI project's code, dataset, benchmarks, evaluation methods, and the UI demo to foster community involvement in AGI advancement: https://github.com/agiresearch/OpenAGI.
翻訳日:2023-11-06 18:21:00 公開日:2023-11-03
# 閉および開非平衡ディッケ三量体モデル:臨界特性と非線形半古典力学

The Closed and Open Unbalanced Dicke Trimer Model: Critical Properties and Nonlinear Semiclassical Dynamics ( http://arxiv.org/abs/2303.11758v2 )

ライセンス: Link先を確認
Cheng Zhang, Pengfei Liang, Neill Lambert and Mauro Cirio(参考訳) 我々は最近導入されたディック・トリマーモデル(Phys. Rev. Lett. 128, 163601, Phys. Rev. Research 5, L042016)の一般化について研究し、空洞損失と光-物質相互作用(回転項と反回転項を独立に調整できる)を可能にする。 極端不均衡極限では、タヴィス・カミングスモデルの$U(1)$対称性が復元され、ゼロエネルギーモードの存在により超放射相の臨界現象を質的に変化させることが分かる。 この一般的な状態を分析するために,再定量化手法に基づく半古典理論を考案する。 この理論はまた、最近報告された時間反転崩壊状態における異常な有限臨界変動に関するさらなる物理的洞察を与える。 オープンディッケの場合、キャビティに局所散逸を導入することにより、自明かつ非自明な動的シグネチャを特徴とする豊富な非平衡位相の出現を観察する。 前者の場合、時間反転対称性が存在すると、3つのキャビティのうち2つに超ラジアン状態、もう1つのキャビティに正常状態を示す新しい定常相が現れる。 後者の場合、周期的あるいはカオス的な位相空間パターンによって特徴付けられる超ラジアント振動を示す動的位相の出現を観察する。 これらの動的相に関連する遷移の風景は、ホップ分岐、異常ホップ分岐、アトラクションの盆地間の衝突、外的危機など、様々な定性的な振る舞いを特徴としている。 閉じたモデルの2つの臨界スケーリング機能は散逸下で頑健であるのに対し、異常な有限臨界ゆらぎの現象はオープンモデルにおいて平均場スケーリングとなる。

We study a generalization of a recently introduced Dicke trimer model [Phys. Rev. Lett. 128, 163601, Phys. Rev. Research 5, L042016], which allows for cavity losses and unbalanced light-matter interactions (in which rotating and counter-rotating terms can be tuned independently). We find that in the extreme unbalanced limit, the $U(1)$ symmetry of the Tavis-Cummings model is restored, qualitatively altering the critical phenomena in the superradiant phase due to the presence of a zero-energy mode. To analyze this general regime, we develop a semiclassical theory based on a re-quantization technique. This theory also provides further physical insight on a recently reported anomalous finite critical fluctuations in the time-reversal broken regime. Moving to the open-Dicke case, by introducing local dissipation to the cavities, we observe the emergence of a rich range of nonequilibrium phases characterized by trivial and non-trivial dynamical signatures. In the former case, we identify, when time-reversal symmetry is present, a new stationary phase that features superradiant states in two of the three cavities and a normal state in the other cavity. In the latter case, we observe the emergence of dynamical phases in which the system exhibits superradiant oscillations, characterized by periodic or chaotic phase space patterns. The landscape of transitions associated with these dynamical phases features a wide range of qualitatively different behaviours such as Hopf bifurcations, anomalous Hopf bifurcations, collisions between basins of attraction, and exterior crises. We highlight how the two-critical-scalings feature of the closed model is robust under dissipation while the phenomenon of anomalous finite critical fluctuations becomes a mean-field scaling in the open model.
翻訳日:2023-11-06 18:20:04 公開日:2023-11-03
# 二元類似性システムに対する逆攻撃

Adversarial Attacks against Binary Similarity Systems ( http://arxiv.org/abs/2303.11143v2 )

ライセンス: Link先を確認
Gianluca Capozzi, Daniele Cono D'Elia, Giuseppe Antonio Di Luna, Leonardo Querzoni(参考訳) 近年、バイナリ分析はソフトウェアを検査し、セキュリティを保証するための基本的なアプローチとして注目を集めている。 ソフトウェアを実行しているデバイスが指数関数的に増えているため、多くの研究がディープラーニングモデルに基づく新しい自律的ソリューションに向かって進んでいる。 この文脈でホットな話題の1つはバイナリ類似性であり、アセンブリコードの2つの関数が同じソースコードからコンパイルされているかどうかを判断する。 しかし、二項類似性の深層学習モデルが対角的文脈でどのように振る舞うかは明らかでない。 本稿では,ブラックボックス攻撃者やホワイトボックス攻撃者による標的攻撃(w.r.t.類似度目標)と非目標攻撃(w.r.t.類似度目標)の両方の影響を受けやすいことを示す。 より詳しくは、2つのブラックボックスグリーディ攻撃に対する2値類似性のための3つの最先端ソリューションを広範囲にテストし、空間グリーディと呼ばれる新しいテクニックと、画像分類器への攻撃に使用される勾配誘導戦略を再利用するホワイトボックス攻撃を試した。

In recent years, binary analysis gained traction as a fundamental approach to inspect software and guarantee its security. Due to the exponential increase of devices running software, much research is now moving towards new autonomous solutions based on deep learning models, as they have been showing state-of-the-art performances in solving binary analysis problems. One of the hot topics in this context is binary similarity, which consists in determining if two functions in assembly code are compiled from the same source code. However, it is unclear how deep learning models for binary similarity behave in an adversarial context. In this paper, we study the resilience of binary similarity models against adversarial examples, showing that they are susceptible to both targeted and untargeted attacks (w.r.t. similarity goals) performed by black-box and white-box attackers. In more detail, we extensively test three current state-of-the-art solutions for binary similarity against two black-box greedy attacks, including a new technique that we call Spatial Greedy, and one white-box attack in which we repurpose a gradient-guided strategy used in attacks to image classifiers.
翻訳日:2023-11-06 18:19:28 公開日:2023-11-03
# オブジェクト中心スロット拡散

Object-Centric Slot Diffusion ( http://arxiv.org/abs/2303.10834v5 )

ライセンス: Link先を確認
Jindong Jiang, Fei Deng, Gautam Singh, Sungjin Ahn(参考訳) オブジェクト中心学習におけるトランスフォーマーベース画像生成モデルの成功は、複雑なシーンを扱うための強力な画像生成器の重要性を強調している。 しかし、画像生成における拡散モデルの表現力が高いにもかかわらず、オブジェクト中心学習への統合は、この領域では未解明のままである。 本稿では,オブジェクト中心学習への拡散モデル統合の可能性と可能性について検討し,このアプローチの長所と短所について考察する。 従来のスロットデコーダをオブジェクトスロット上で条件付けされた潜在拡散モデルに置き換えた最初のオブジェクト中心学習モデルであり、テキストのような教師付きアノテーションを必要とせずに動作する最初の教師なし合成条件拡散モデルでもある。 この分野でのFFHQデータセットの最初の適用を含む、さまざまなオブジェクト中心のタスクの実験を通じて、LSDが最先端のトランスフォーマーベースのデコーダ、特に複雑なシーンにおいて著しく優れており、教師なしの合成生成品質が優れていることを示す。 さらに, LSDにおける事前学習拡散モデルの統合について予備検討を行い, 実世界の画像分割と生成における有効性を示す。 プロジェクトページはhttps://latentslotdiffusion.github.ioで閲覧できる。

The recent success of transformer-based image generative models in object-centric learning highlights the importance of powerful image generators for handling complex scenes. However, despite the high expressiveness of diffusion models in image generation, their integration into object-centric learning remains largely unexplored in this domain. In this paper, we explore the feasibility and potential of integrating diffusion models into object-centric learning and investigate the pros and cons of this approach. We introduce Latent Slot Diffusion (LSD), a novel model that serves dual purposes: it is the first object-centric learning model to replace conventional slot decoders with a latent diffusion model conditioned on object slots, and it is also the first unsupervised compositional conditional diffusion model that operates without the need for supervised annotations like text. Through experiments on various object-centric tasks, including the first application of the FFHQ dataset in this field, we demonstrate that LSD significantly outperforms state-of-the-art transformer-based decoders, particularly in more complex scenes, and exhibits superior unsupervised compositional generation quality. In addition, we conduct a preliminary investigation into the integration of pre-trained diffusion models in LSD and demonstrate its effectiveness in real-world image segmentation and generation. Project page is available at https://latentslotdiffusion.github.io
翻訳日:2023-11-06 18:19:07 公開日:2023-11-03
# xASTNN: 産業実践のためのコード表現の改善

xASTNN: Improved Code Representations for Industrial Practice ( http://arxiv.org/abs/2303.07104v2 )

ライセンス: Link先を確認
Zhiwei Xu, Min Zhou, Xibin Zhao, Yang Chen, Xi Cheng, Hongyu Zhang(参考訳) ソフトウェア工学におけるディープラーニング技術の応用がますます普及している。 問題のひとつは、コード関連タスクのための高品質で使いやすいソースコード表現を開発することだ。 近年,研究コミュニティは印象的な成果を得ている。 しかし、デプロイメントの困難とパフォーマンスのボトルネックのため、これらのアプローチが業界に適用されることはほとんどない。 本稿では,ソースコード表現のためのeXtreme Abstract Syntax Tree (AST)ベースのニューラルネットワークであるxASTNNについて述べる。 提案されているxASTNNには3つの利点がある。 まず、xASTNNは広く使われているASTを完全にベースとしており、複雑なデータ前処理を必要としないため、様々なプログラミング言語や実践シナリオに適用できる。 第2に,xastnnの有効性を保証するために,コード自然性のためのステートメントサブツリーシーケンス,構文情報のためのゲート再帰ユニット,シーケンシャル情報のためのゲート再帰ユニットという,3つの密接な関連設計が提案されている。 第3に、xASTNNの時間的複雑さを著しく低減するために動的バッチアルゴリズムを導入する。 2つのコード理解タスク、コード分類とコードクローン検出が評価に採用されている。 その結果、xASTNNはベースラインよりも高速で最先端の技術を向上できることがわかった。

The application of deep learning techniques in software engineering becomes increasingly popular. One key problem is developing high-quality and easy-to-use source code representations for code-related tasks. The research community has acquired impressive results in recent years. However, due to the deployment difficulties and performance bottlenecks, seldom these approaches are applied to the industry. In this paper, we present xASTNN, an eXtreme Abstract Syntax Tree (AST)-based Neural Network for source code representation, aiming to push this technique to industrial practice. The proposed xASTNN has three advantages. First, xASTNN is completely based on widely-used ASTs and does not require complicated data pre-processing, making it applicable to various programming languages and practical scenarios. Second, three closely-related designs are proposed to guarantee the effectiveness of xASTNN, including statement subtree sequence for code naturalness, gated recursive unit for syntactical information, and gated recurrent unit for sequential information. Third, a dynamic batching algorithm is introduced to significantly reduce the time complexity of xASTNN. Two code comprehension downstream tasks, code classification and code clone detection, are adopted for evaluation. The results demonstrate that our xASTNN can improve the state-of-the-art while being faster than the baselines.
翻訳日:2023-11-06 18:18:45 公開日:2023-11-03
# プレトレイン盆地に滞在するか否か:転校学習の実践をめざして

To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning ( http://arxiv.org/abs/2303.03374v2 )

ライセンス: Link先を確認
Ildus Sadrtdinov, Dmitrii Pozdeev, Dmitry Vetrov, Ekaterina Lobacheva(参考訳) transfer learningとensemblingは、ニューラルネットワークのパフォーマンスと堅牢性を改善するための2つの一般的なテクニックである。 事前訓練のコストが高いため、1つの事前訓練済みチェックポイントから微調整されたモデルのアンサンブルが実際によく用いられる。 このようなモデルは、私たちがプレトレイン盆地と呼ぶロスランドスケープの同じ流域に留まり、そのため多様性は限られている。 本研究では,1つの事前学習チェックポイントから訓練したアンサンブルを,列車前流域の探索により改善できることを示すが,このアンサンブルは移動学習の利点を失い,アンサンブルの品質が低下する結果となる。 本稿では,既存の探索手法の分析に基づいて,より効果的にSSE(Snapshot Ensembles)を改良し,より強力なアンサンブルと均一なモデルスープをもたらすStarSSEを提案する。

Transfer learning and ensembling are two popular techniques for improving the performance and robustness of neural networks. Due to the high cost of pre-training, ensembles of models fine-tuned from a single pre-trained checkpoint are often used in practice. Such models end up in the same basin of the loss landscape, which we call the pre-train basin, and thus have limited diversity. In this work, we show that ensembles trained from a single pre-trained checkpoint may be improved by better exploring the pre-train basin, however, leaving the basin results in losing the benefits of transfer learning and in degradation of the ensemble quality. Based on the analysis of existing exploration methods, we propose a more effective modification of the Snapshot Ensembles (SSE) for transfer learning setup, StarSSE, which results in stronger ensembles and uniform model soups.
翻訳日:2023-11-06 18:18:26 公開日:2023-11-03
# 格子場理論のフローベースサンプリングのためのモード収束の検出と緩和

Detecting and Mitigating Mode-Collapse for Flow-based Sampling of Lattice Field Theories ( http://arxiv.org/abs/2302.14082v2 )

ライセンス: Link先を確認
Kim A. Nicoli and Christopher J. Anders and Tobias Hartung and Karl Jansen and Pan Kessel and Shinichi Nakajima(参考訳) 格子場理論における正規化流れのモード崩壊の結果について検討する。 正規化フローは独立したサンプリングを可能にする。 このため,マルチモーダル分布に対する局所更新mcmcアルゴリズムのトンネル問題を回避することが期待されている。 そこで本研究では, 流れの正規化にもトンネル問題が存在するが, サンプリングからアルゴリズムの訓練段階に移行することを指摘した。 特に、正規化フローは、トレーニングプロセスが物理的分布の関連するモードに消滅的に低い確率質量を割り当てるモード崩壊に悩まされることが多い。 これは、Markov-ChainまたはImportance Smplingのサンプルとしてフローが使用される場合、大きなバイアスをもたらす可能性がある。 本稿では,モード崩壊の度合いを定量化し,その結果のバイアスを導出する指標を提案する。 さらに, 自由エネルギーなどの熱力学的観測量の推定の文脈において, 様々な緩和戦略を提案する。

We study the consequences of mode-collapse of normalizing flows in the context of lattice field theory. Normalizing flows allow for independent sampling. For this reason, it is hoped that they can avoid the tunneling problem of local-update MCMC algorithms for multi-modal distributions. In this work, we first point out that the tunneling problem is also present for normalizing flows but is shifted from the sampling to the training phase of the algorithm. Specifically, normalizing flows often suffer from mode-collapse for which the training process assigns vanishingly low probability mass to relevant modes of the physical distribution. This may result in a significant bias when the flow is used as a sampler in a Markov-Chain or with Importance Sampling. We propose a metric to quantify the degree of mode-collapse and derive a bound on the resulting bias. Furthermore, we propose various mitigation strategies in particular in the context of estimating thermodynamic observables, such as the free energy.
翻訳日:2023-11-06 18:18:10 公開日:2023-11-03
# サンプリングのための勾配流:平均場モデル、ガウス近似およびアフィン不変性

Gradient Flows for Sampling: Mean-Field Models, Gaussian Approximations and Affine Invariance ( http://arxiv.org/abs/2302.11024v6 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M. Stuart(参考訳) 未知の正規化定数で確率分布をサンプリングすることは、計算科学と工学の基本的な問題である。 このタスクは全ての確率測度に対する最適化問題とみなすことができ、初期分布は勾配流を介して動的に所望の最小値へと発展させることができる。 平均場モデルは、確率測度の空間における勾配流によって法則が支配されるが、これらの平均場モデルの粒子近似はアルゴリズムの基盤を形成する。 勾配流のアプローチは変分推論のアルゴリズムの基礎にもなり、ガウスのような確率分布のパラメータ化された族上で最適化が行われ、基礎となる勾配流はパラメータ化された族に制限される。 勾配流の異なるエネルギー汎関数とメトリクスを選択することで、異なる収束特性を持つ異なるアルゴリズムが生じる。 本稿では,このエネルギー選択から生じる勾配流が正規化定数に依存しないという特異な性質を持つことを示した上で,Kulback-Leiblerの発散に着目する。 この指標について,fisher-rao,wasserstein,steinメトリクスの変種に注目し,勾配流と対応する平均場モデルに対するアフィン不変性を導入し,与えられた計量がアフィン不変性をもたらすかどうかを判定し,そうでない場合はアフィン不変量にするように修正する。 確率密度空間とガウス空間の両方における勾配流の研究を行った。 ガウス空間内の流れは、流れのガウス近似として理解することができる。 計量とモーメント閉包に基づくガウス近似が一致することを示し、それら間の接続を確立し、アフィン不変性の利点を示す長期収束特性について検討する。

Sampling a probability distribution with an unknown normalization constant is a fundamental problem in computational science and engineering. This task may be cast as an optimization problem over all probability measures, and an initial distribution can be evolved to the desired minimizer dynamically via gradient flows. Mean-field models, whose law is governed by the gradient flow in the space of probability measures, may also be identified; particle approximations of these mean-field models form the basis of algorithms. The gradient flow approach is also the basis of algorithms for variational inference, in which the optimization is performed over a parameterized family of probability distributions such as Gaussians, and the underlying gradient flow is restricted to the parameterized family. By choosing different energy functionals and metrics for the gradient flow, different algorithms with different convergence properties arise. In this paper, we concentrate on the Kullback-Leibler divergence after showing that, up to scaling, it has the unique property that the gradient flows resulting from this choice of energy do not depend on the normalization constant. For the metrics, we focus on variants of the Fisher-Rao, Wasserstein, and Stein metrics; we introduce the affine invariance property for gradient flows, and their corresponding mean-field models, determine whether a given metric leads to affine invariance, and modify it to make it affine invariant if it does not. We study the resulting gradient flows in both probability density space and Gaussian space. The flow in the Gaussian space may be understood as a Gaussian approximation of the flow. We demonstrate that the Gaussian approximation based on the metric and through moment closure coincide, establish connections between them, and study their long-time convergence properties showing the advantages of affine invariance.
翻訳日:2023-11-06 18:17:55 公開日:2023-11-03
# 量子格子モデルにおけるニューラルネットワークによる手話規則学習の原理

Principle of learning sign rules by neural networks in qubit lattice models ( http://arxiv.org/abs/2302.02523v2 )

ライセンス: Link先を確認
Jin Cao, Shijie Hu, Zhiping Yin, and Ke Xia(参考訳) ニューラルネットワークは、人間の直感を超えた隠された法則を発見できる強力なツールだ。 しかし、複雑な非線形構造のため、しばしばブラックボックスとして現れる。 gutzwiller平均場理論を参考にすることで、キュービット格子モデルにおける順序状態の符号規則の原理を示すことができる。 これらの符号規則を示すために、単一の隠れニューロンを持つ浅いフィードフォワードニューラルネットワークを導入する。 一般化Ising, spin-1/2$XY, (フラストレーション)Heisenberg環, トーラス上の三角形XY反強磁性体, 任意の充填でFermi-Hubbard環など,様々なモデルで系統的なベンチマークを行う。 これらのベンチマークは、すべての先行符号規則特性がピッチ角などの古典的な形式で可視化可能であることを示している。 さらに、量子揺らぎは不完全な精度を定量的に得ることができる。

A neural network is a powerful tool that can uncover hidden laws beyond human intuition. However, it often appears as a black box due to its complicated nonlinear structures. By drawing upon the Gutzwiller mean-field theory, we can showcase a principle of sign rules for ordered states in qubit lattice models. We introduce a shallow feed-forward neural network with a single hidden neuron to present these sign rules. We conduct systematical benchmarks in various models, including the generalized Ising, spin-$1/2$ XY, (frustrated) Heisenberg rings, triangular XY antiferromagnet on a torus, and the Fermi-Hubbard ring at an arbitrary filling. These benchmarks show that all the leading-order sign rule characteristics can be visualized in classical forms, such as pitch angles. Besides, quantum fluctuations can result in an imperfect accuracy rate quantitatively.
翻訳日:2023-11-06 18:16:41 公開日:2023-11-03
# 連続DR-部分モジュラ関数の最大化のための統一的アプローチ

A Unified Approach for Maximizing Continuous DR-submodular Functions ( http://arxiv.org/abs/2305.16671v2 )

ライセンス: Link先を確認
Mohammad Pedramfar and Christopher John Quinn and Vaneet Aggarwal(参考訳) 本稿では,さまざまな設定と oracle アクセスタイプを包含する連続的な dr-submodular 関数を最大化する統一的アプローチを提案する。 我々のアプローチは、一般凸集合に対する異なる制約を持つ単調関数と非単調関数の両方に対するフランク・ウルフ型オフラインアルゴリズムを含む。 私たちは、oracleが関数の勾配または関数値のみへのアクセスを提供し、oracleアクセスが決定論的または確率的であるような設定を検討する。 すべてのケースで必要なoracleアクセスの数を決定します。 提案手法は,16例中9例に新しい/改善結果を与え,計算コストの高い投射を2例で回避し,残りの5例で最先端手法の性能にマッチするフレームワークを提案する。 特に、確率関数値に基づくオラクルに対する我々のアプローチは、確率DR-部分モジュラ関数に対する帯域フィードバックによる最初の後悔のバウンドを可能にする。

This paper presents a unified approach for maximizing continuous DR-submodular functions that encompasses a range of settings and oracle access types. Our approach includes a Frank-Wolfe type offline algorithm for both monotone and non-monotone functions, with different restrictions on the general convex set. We consider settings where the oracle provides access to either the gradient of the function or only the function value, and where the oracle access is either deterministic or stochastic. We determine the number of required oracle accesses in all cases. Our approach gives new/improved results for nine out of the sixteen considered cases, avoids computationally expensive projections in two cases, with the proposed framework matching performance of state-of-the-art approaches in the remaining five cases. Notably, our approach for the stochastic function value-based oracle enables the first regret bounds with bandit feedback for stochastic DR-submodular functions.
翻訳日:2023-11-06 18:08:51 公開日:2023-11-03
# 大規模言語モデルにおける会話勧告の評価の再考

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models ( http://arxiv.org/abs/2305.13112v2 )

ライセンス: Link先を確認
Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao, Jingyuan Wang, Ji-Rong Wen(参考訳) 近年の大規模言語モデル(LLM)の成功は、ユーザニーズを満たすために自然言語の会話に依存する、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。 本稿では,チャットgptの会話推薦における活用について調査を行い,既存の評価プロトコルの不十分性を明らかにする。 これは、人間のアノテータが生み出す地上の真実や発話とのマッチングを過度に強調する一方で、有能なCRSであることのインタラクティブな性質を無視するかもしれない。 この制限を克服するため,LLMをベースとしたユーザシミュレータであるiEvaLMを用いた対話型評価手法を提案する。 評価手法はユーザとシステム間の様々なインタラクションシナリオをシミュレートできる。 利用可能な2つのCRSデータセットの実験を通して、一般的な評価プロトコルと比較して顕著な改善が示された。 さらに,説明可能性の評価を強調し,チャットgptではその推奨事項に対する説得力のある説明生成を提示する。 本研究は,CRSに対するLCMの未解決可能性の深い理解に寄与し,今後の研究課題に対して,より柔軟で使いやすい評価フレームワークを提供する。 コードとデータはhttps://github.com/RUCAIBox/iEvaLM-CRSで公開されている。

The recent success of large language models (LLMs) has shown great potential to develop more powerful conversational recommender systems (CRSs), which rely on natural language conversations to satisfy user needs. In this paper, we embark on an investigation into the utilization of ChatGPT for conversational recommendation, revealing the inadequacy of the existing evaluation protocol. It might over-emphasize the matching with the ground-truth items or utterances generated by human annotators, while neglecting the interactive nature of being a capable CRS. To overcome the limitation, we further propose an interactive Evaluation approach based on LLMs named iEvaLM that harnesses LLM-based user simulators. Our evaluation approach can simulate various interaction scenarios between users and systems. Through the experiments on two publicly available CRS datasets, we demonstrate notable improvements compared to the prevailing evaluation protocol. Furthermore, we emphasize the evaluation of explainability, and ChatGPT showcases persuasive explanation generation for its recommendations. Our study contributes to a deeper comprehension of the untapped potential of LLMs for CRSs and provides a more flexible and easy-to-use evaluation framework for future research endeavors. The codes and data are publicly available at https://github.com/RUCAIBox/iEvaLM-CRS.
翻訳日:2023-11-06 18:08:35 公開日:2023-11-03
# 基礎モデルからのユニバーサルドメイン適応:基礎研究

Universal Domain Adaptation from Foundation Models: A Baseline Study ( http://arxiv.org/abs/2305.11092v2 )

ライセンス: Link先を確認
Bin Deng and Kui Jia(参考訳) ファンデーションモデル(例えばCLIPやDINOv2)は、大規模なデータコーパスのトレーニングと特定の下流タスクへの適応によって、広範囲の視覚タスクにおいて、彼らの印象的な学習と伝達能力を示している。 しかし、UniDA(UniDA)は、ソースドメイン内のラベル付きデータとターゲットドメイン内のラベルなしデータを用いてモデルを学習し、学習したモデルが対象データに適応できるように、基礎モデルが完全には研究されていないことが興味深い。 本稿では,基礎モデルを用いた最先端UniDA手法の総合的な実証的研究を行う。 まず、imagenetの事前学習モデルの微調整とは異なり、基礎モデルの微調整は、スクラッチからトレーニングするよりも非常に悪い結果をもたらす。 バックボーンを凍結しながら、基礎モデルがソースデータだけでモデルをトレーニングするベースラインメソッドのパフォーマンスを大幅に改善するが、既存のunidaメソッドは一般的にベースラインよりも改善されないことを実証する。 これは、UniDAが基礎モデルを使用するためには、新しい研究努力が必要であることを示唆している。 これらの知見に基づき,CLIPモデルから対象知識を抽出するパラメータフリーな手法であるtextit{CLIP 蒸留法を導入する。 我々の‘textit{CLIP蒸留’の核心は、ベースラインのクラス外検出能力を著しく向上させる、自動温度スケーリングのための自己校正技術にある。 h-score/h$^3$-score や新たに提案された universal classification rate (ucr) メトリックなどの評価基準が優れている。 我々は,我々の調査と提案フレームワークが,この分野の将来研究を促進するための強固なベースラインとなることを願っている。

Foundation models (e.g., CLIP or DINOv2) have shown their impressive learning and transfer capabilities in a wide range of visual tasks, by training on a large corpus of data and adapting to specific downstream tasks. It is, however, interesting that foundation models have not been fully explored for universal domain adaptation (UniDA), which is to learn models using labeled data in a source domain and unlabeled data in a target one, such that the learned models can successfully adapt to the target data. In this paper, we make comprehensive empirical studies of state-of-the-art UniDA methods using foundation models. We first observe that, unlike fine-tuning from ImageNet pre-trained models, as previous methods do, fine-tuning from foundation models yields significantly poorer results, sometimes even worse than training from scratch. While freezing the backbones, we demonstrate that although the foundation models greatly improve the performance of the baseline method that trains the models on the source data alone, existing UniDA methods generally fail to improve over the baseline. This suggests that new research efforts are very necessary for UniDA using foundation models. Based on these findings, we introduce \textit{CLIP distillation}, a parameter-free method specifically designed to distill target knowledge from CLIP models. The core of our \textit{CLIP distillation} lies in a self-calibration technique for automatic temperature scaling, a feature that significantly enhances the baseline's out-class detection capability. Although simple, our method outperforms previous approaches in most benchmark tasks, excelling in evaluation metrics including H-score/H$^3$-score and the newly proposed universal classification rate (UCR) metric. We hope that our investigation and the proposed simple framework can serve as a strong baseline to facilitate future studies in this field.
翻訳日:2023-11-06 18:08:15 公開日:2023-11-03
# 局所交絡測定に基づく古典的影

Classical shadows based on locally-entangled measurements ( http://arxiv.org/abs/2305.10723v2 )

ライセンス: Link先を確認
Matteo Ippoliti(参考訳) 我々は,n$-qubit エンタングルベースにおけるランダム化測定に基づく古典的なシャドウプロトコルを研究し,ランダムな pauli 測定プロトコル (n = 1$) を一般化した。 絡み合った測定(n\geq 2$)は、パウリ予想値の学習のサンプル複雑さにおいて、非自明で潜在的に有利なトレードオフを可能にすることを示す。 Pauli 重み $k$ によるサンプル複雑性のスケーリングは、多くの演算子に対して二次的に($\sim 3^k$ から $\sim 3^{k/2}$ まで)改善するが、他の演算子では学習できない。 測定ベースにおける絡み合いの量を調整することは、ポーリとベルシャドウの間を補間する一連のプロトコルを定義し、両者の利点の一部を保っている。 大きなn$の場合、n$-qubit ghz のベースでランダム化された測定値が、ますます制限されるオペレーターのセットではあるものの、$\sim (3/2)^k$ のスケーリングをさらに改善することを示している。 単純さとハードウェア要件の低さにもかかわらず、これらのプロトコルは、最近導入された"シャロウシャドー"と実際に関連するいくつかのパウリ推定タスクで一致または性能を向上することができる。

We study classical shadows protocols based on randomized measurements in $n$-qubit entangled bases, generalizing the random Pauli measurement protocol ($n = 1$). We show that entangled measurements ($n\geq 2$) enable nontrivial and potentially advantageous trade-offs in the sample complexity of learning Pauli expectation values. This is sharply illustrated by shadows based on two-qubit Bell measurements: the scaling of sample complexity with Pauli weight $k$ improves quadratically (from $\sim 3^k$ down to $\sim 3^{k/2}$) for many operators, while others become impossible to learn. Tuning the amount of entanglement in the measurement bases defines a family of protocols that interpolate between Pauli and Bell shadows, retaining some of the benefits of both. For large $n$, we show that randomized measurements in $n$-qubit GHZ bases further improve the best scaling to $\sim (3/2)^k$, albeit on an increasingly restricted set of operators. Despite their simplicity and lower hardware requirements, these protocols can match or outperform recently-introduced "shallow shadows" in some practically-relevant Pauli estimation tasks.
翻訳日:2023-11-06 18:07:44 公開日:2023-11-03
# 欠失データが因果関係発見に及ぼす影響--多中心性臨床研究

The Impact of Missing Data on Causal Discovery: A Multicentric Clinical Study ( http://arxiv.org/abs/2305.10050v2 )

ライセンス: Link先を確認
Alessio Zanga, Alice Bernasconi, Peter J.F. Lucas, Hanny Pijnenborg, Casper Reijnen, Marco Scutari, Fabio Stella(参考訳) 観察データから臨床仮説をテストする因果推論は、基礎となるデータ生成モデルと関連する因果グラフが一般に利用できないため、多くの困難をもたらす。 さらに、観察データには欠落した値が含まれ、因果発見アルゴリズムによる因果グラフの回復に影響を与える可能性がある。 本研究では, 子宮内膜癌に対する多施設共同研究から得られたデータを用いて, 回復した因果グラフに対する異なる欠損機構の影響を解析する。 これは、最先端の因果発見アルゴリズムを拡張して、理論的な健全性を犠牲にすることなく専門家の知識を活用することで達成される。 専門医による回復グラフの検証を行い,本手法が臨床関連ソリューションを見いだすことを示す。 最後に,グラフの適合性とその整合性について,画像分離を用いた臨床的意思決定の観点から検討し,因果経路の検証を行った。

Causal inference for testing clinical hypotheses from observational data presents many difficulties because the underlying data-generating model and the associated causal graph are not usually available. Furthermore, observational data may contain missing values, which impact the recovery of the causal graph by causal discovery algorithms: a crucial issue often ignored in clinical studies. In this work, we use data from a multi-centric study on endometrial cancer to analyze the impact of different missingness mechanisms on the recovered causal graph. This is achieved by extending state-of-the-art causal discovery algorithms to exploit expert knowledge without sacrificing theoretical soundness. We validate the recovered graph with expert physicians, showing that our approach finds clinically-relevant solutions. Finally, we discuss the goodness of fit of our graph and its consistency from a clinical decision-making perspective using graphical separation to validate causal pathways.
翻訳日:2023-11-06 18:07:18 公開日:2023-11-03
# Bare Homography による画像マッチング

Image Matching by Bare Homography ( http://arxiv.org/abs/2305.08946v2 )

ライセンス: Link先を確認
Fabio Bellavia(参考訳) 本稿では,シーンを粗い局所重なり面としてモデル化する,新しい非奥行き画像マッチングフレームワークslimeを提案する。 この中間表現は、キーポイントパッチの局所的なアフィン近似と、空間的および類似性の制約に基づくグローバルマッチングの間に位置し、プレーンが一般的なシーンに関して扱いやすいので、対応の漸進的プルーニングを提供する。 スライムは画像を異なるスケールで重なり合う領域に分解し、ゆるい平面ホモグラフを計算する。 平面は一致するマッチによって相互に拡張され、画像は固定タイルに分割され、タイルのペアごとに最適なホモグラフのみが保持される。 安定マッチは、ペアワイズホモグラフによって提供される許容ステレオ構成のコンセンサスに従って識別される。 タイル内では、粗面はマッチの重なりに応じてマージされ、さらに一貫した対応が抽出される。 プロセス全体はホモグラフィの制約のみを含む。 その結果、シーン上の正しいマッチのカバレッジと安定性の両方が増幅され、困難なシーンでマッチを見つけられるようになり、従来のハイブリッドマッチングパイプラインが、最近のエンドツーエンドのディープマッチングメソッドに対して失われた基盤を構築できるようになった。 さらに、エンドツーエンドのディープ・ネットワークとハイブリッド・パイプラインで表現される画像マッチングにおける最近の最先端画像の比較分析を行った。 この評価は、急激な時間変化や相対的な画像回転の強い変動など、批判的かつ困難なシナリオを考慮して、平面と非平面の両方を考慮する。 この分析によれば、この分野における印象的な進歩にもかかわらず、今後の研究で検討すべき改善の余地は広い。

This paper presents Slime, a novel non-deep image matching framework which models the scene as rough local overlapping planes. This intermediate representation sits in-between the local affine approximation of the keypoint patches and the global matching based on both spatial and similarity constraints, providing a progressive pruning of the correspondences, as planes are easier to handle with respect to general scenes. Slime decomposes the images into overlapping regions at different scales and computes loose planar homographies. Planes are mutually extended by compatible matches and the images are split into fixed tiles, with only the best homographies retained for each pair of tiles. Stable matches are identified according to the consensus of the admissible stereo configurations provided by pairwise homographies. Within tiles, the rough planes are then merged according to their overlap in terms of matches and further consistent correspondences are extracted. The whole process only involves homography constraints. As a result, both the coverage and the stability of correct matches over the scene are amplified, together with the ability to spot matches in challenging scenes, allowing traditional hybrid matching pipelines to make up lost ground against recent end-to-end deep matching methods. In addition, the paper gives a thorough comparative analysis of recent state-of-the-art in image matching represented by end-to-end deep networks and hybrid pipelines. The evaluation considers both planar and non-planar scenes, taking into account critical and challenging scenarios including abrupt temporal image changes and strong variations in relative image rotations. According to this analysis, although the impressive progress done in this field, there is still a wide room for improvements to be investigated in future research.
翻訳日:2023-11-06 18:07:03 公開日:2023-11-03
# ACCENT:オープンドメイン対話システムのためのイベントコモンセンス自動評価基準

ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain Dialogue Systems ( http://arxiv.org/abs/2305.07797v2 )

ライセンス: Link先を確認
Sarik Ghazarian, Yijia Shao, Rujun Han, Aram Galstyan, Nanyun Peng(参考訳) 常識推論は人間のコミュニケーションにおいて一様であり、オープンドメイン対話システムにおいて重要な特徴である。 しかし,対話システムにおけるコモンセンスの評価はいまだに難しい課題である。 イベント・コモンセンスとそれらの関係を考察するイベント・コモンセンスに着目し、対話と一般的なコモンセンス推論の両方において重要である。 本稿では,CSKB(Commonsense Knowledge Bases)によるイベントコモンセンス評価尺度であるACCENTを提案する。 ACCENTはまず対話からイベント関連タプルを抽出し、CSKBとの互換性の観点からタプルをスコアリングして応答を評価する。 アクセントを評価するために,オープンドメイン対話のための最初の公開イベントコモンセンス評価データセットを構築する。 実験の結果,ACCENTは事象のコモンセンス評価に有効な指標であり,既存の基準よりも人間の判断との相関性が高いことがわかった。

Commonsense reasoning is omnipresent in human communications and thus is an important feature for open-domain dialogue systems. However, evaluating commonsense in dialogue systems is still an open challenge. We take the first step by focusing on event commonsense that considers events and their relations, and is crucial in both dialogues and general commonsense reasoning. We propose ACCENT, an event commonsense evaluation metric empowered by commonsense knowledge bases (CSKBs). ACCENT first extracts event-relation tuples from a dialogue, and then evaluates the response by scoring the tuples in terms of their compatibility with the CSKB. To evaluate ACCENT, we construct the first public event commonsense evaluation dataset for open-domain dialogues. Our experiments show that ACCENT is an efficient metric for event commonsense evaluation, which achieves higher correlations with human judgments than existing baselines.
翻訳日:2023-11-06 18:06:37 公開日:2023-11-03
# COLA: コンポジションテキスト画像検索のためのベンチマーク

COLA: A Benchmark for Compositional Text-to-image Retrieval ( http://arxiv.org/abs/2305.03689v3 )

ライセンス: Link先を確認
Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko(参考訳) 構成推論は人間の視覚知能の目印である。 しかし、大きな視覚言語モデルのサイズにもかかわらず、オブジェクトと属性を組み合わせることで単純な構成を表現するのに苦労している。 コンポジション能力の欠如を測るため,Attributesで局所化したCompose Objectsに対するテキスト・画像検索ベンチマークであるColaを設計した。 Colaを解決するには、モデルが属性とオブジェクトの適切な構成で画像を検索し、同じオブジェクトと属性を持つイントラクタイメージを選択することを避ける必要がある。 Colaは168のオブジェクトと約30Kイメージの197の属性からなる1.2kのクエリを含んでいる。 人間による評価では、コーラは83.33%正確であり、現代の構成性ベンチマークと同様である。 colaをテストベッドとして使用し,事前学習した視覚言語モデルに合理性を持たせるための経験的モデリング設計について検討した。 構成性中心テストベンチマーク - cola と crepe を用いて, 2つの視覚言語モデルにおける6つの適応戦略について検討した。 最適適応戦略は,凍結した事前学習画像と言語特徴に共同で参画するマルチモーダルアテンション層を訓練することである。 驚くべきことに、CLIP上のマルチモーダルレイヤのトレーニングは、すでにトレーニング済みのマルチモーダルレイヤで、より大きなFLAVAモデルをチューニングするよりも優れている。 さらに、我々の適応戦略はCLIPとFLAVAを同等レベルまで改善し、コントラッシブ属性オブジェクトデータを用いたマルチモーダルレイヤのトレーニングが重要であることを示唆している。 最後に、Cola は CREPE では十分だがCola では十分ではないため、近縁な現代的なベンチマーク CREPE よりも難しいことを示す。 しかし、最良の適応と人間の正確さの間には依然として大きなギャップがあり、さらなる研究の余地があることを示唆している。

Compositional reasoning is a hallmark of human visual intelligence. Yet, despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. To solve Cola, a model must retrieve images with the correct configuration of attributes and objects and avoid choosing a distractor image with the same objects and attributes but in the wrong configuration. Cola contains about 1.2k composed queries of 168 objects and 197 attributes on around 30K images. Our human evaluation finds that Cola is 83.33% accurate, similar to contemporary compositionality benchmarks. Using Cola as a testbed, we explore empirical modeling designs to adapt pre-trained vision-language models to reason compositionally. We explore 6 adaptation strategies on 2 seminal vision-language models, using compositionality-centric test benchmarks - Cola and CREPE. We find the optimal adaptation strategy is to train a multi-modal attention layer that jointly attends over the frozen pre-trained image and language features. Surprisingly, training multimodal layers on CLIP performs better than tuning a larger FLAVA model with already pre-trained multimodal layers. Furthermore, our adaptation strategy improves CLIP and FLAVA to comparable levels, suggesting that training multimodal layers using contrastive attribute-object data is key, as opposed to using them pre-trained. Lastly, we show that Cola is harder than a closely related contemporary benchmark, CREPE, since simpler fine-tuning strategies without multimodal layers suffice on CREPE but not on Cola. However, we still see a significant gap between our best adaptation and human accuracy, suggesting considerable room for further research.
翻訳日:2023-11-06 18:06:19 公開日:2023-11-03
# 微分プライベートトポロジカルデータ解析

Differentially Private Topological Data Analysis ( http://arxiv.org/abs/2305.03609v2 )

ライセンス: Link先を確認
Taegyu Kang, Sehwan Kim, Jinwon Sohn, Jordan Awan(参考訳) 本稿では, 微分プライベート(DP)トポロジカルデータ解析 (TDA) を初めて試み, ほぼ最適なプライベート永続図を作成する。 ボトルネック距離の観点から永続性図形の感度を解析し, 一般的に用いられる \v{C}ech 錯体は, サンプルサイズが$n$増加するにつれて低下しない感度を持つことを示した。 これにより、v{C}ech錯体の永続図式を民営化するのが困難になる。 代替として、DTM(DTM)測定のための$L^1$-distanceによって得られた持続図は、感度$O(1/n)$であることを示す。 感度解析に基づいて, $l^1$-dtm パーシステンスダイアグラムのボトルネック距離からユーティリティ関数を定義する指数関数機構を用いることを提案する。 また、プライバシ機構の精度の上限を上下に導出し、得られた境界は、機構のプライバシエラーがほぼ最適であることを示している。 シミュレーションと実際のデータセットによる人間の動きの追跡により,民営化された永続化図の性能を実証する。

This paper is the first to attempt differentially private (DP) topological data analysis (TDA), producing near-optimal private persistence diagrams. We analyze the sensitivity of persistence diagrams in terms of the bottleneck distance, and we show that the commonly used \v{C}ech complex has sensitivity that does not decrease as the sample size $n$ increases. This makes it challenging for the persistence diagrams of \v{C}ech complexes to be privatized. As an alternative, we show that the persistence diagram obtained by the $L^1$-distance to measure (DTM) has sensitivity $O(1/n)$. Based on the sensitivity analysis, we propose using the exponential mechanism whose utility function is defined in terms of the bottleneck distance of the $L^1$-DTM persistence diagrams. We also derive upper and lower bounds of the accuracy of our privacy mechanism; the obtained bounds indicate that the privacy error of our mechanism is near-optimal. We demonstrate the performance of our privatized persistence diagrams through simulations as well as on a real dataset tracking human movement.
翻訳日:2023-11-06 18:05:47 公開日:2023-11-03
# GradTree: 勾配の未熟な軸方向決定木を学習する

GradTree: Learning Axis-Aligned Decision Trees with Gradient Descent ( http://arxiv.org/abs/2305.03515v4 )

ライセンス: Link先を確認
Sascha Marton and Stefan L\"udtke and Christian Bartelt and Heiner Stuckenschmidt(参考訳) 決定木(DT)は、高い解釈可能性のために多くの機械学習タスクに一般的に使用される。 しかし、DTをデータから学習することは、非凸で微分不可能であるため、難しい最適化問題である。 したがって、共通のアプローチは各内部ノードの局所的な不純物を最小化する欲望成長アルゴリズムを用いてdtsを学ぶ。 残念なことに、この欲深い手順は不正確な木につながる可能性がある。 本稿では,勾配勾配の強い軸方向のDTを学習するための新しい手法を提案する。 提案手法では,高密度dt表現上のストレートスルー演算子を用いたバックプロパゲーションを用いて,全木パラメータを協調的に最適化する。 提案手法は,バイナリ分類ベンチマークの既存手法を上回り,マルチクラスタスクの競合結果を得る。 https://github.com/s-marton/GradTree

Decision Trees (DTs) are commonly used for many machine learning tasks due to their high degree of interpretability. However, learning a DT from data is a difficult optimization problem, as it is non-convex and non-differentiable. Therefore, common approaches learn DTs using a greedy growth algorithm that minimizes the impurity locally at each internal node. Unfortunately, this greedy procedure can lead to inaccurate trees. In this paper, we present a novel approach for learning hard, axis-aligned DTs with gradient descent. The proposed method uses backpropagation with a straight-through operator on a dense DT representation, to jointly optimize all tree parameters. Our approach outperforms existing methods on binary classification benchmarks and achieves competitive results for multi-class tasks. The method is available under: https://github.com/s-marton/GradTree
翻訳日:2023-11-06 18:05:29 公開日:2023-11-03
# 固有光力生成ゲインを持つ超ラジアント2レベルレーザー

A superradiant two-level laser with intrinsic light force generated gain ( http://arxiv.org/abs/2304.13190v2 )

ライセンス: Link先を確認
Anna Bychek, Helmut Ritsch(参考訳) 能動周波数標準としてのスーパーラジアントレーザーの実装は、標準受動光時計と比較して短期安定性と熱的・機械的揺らぎに対する堅牢性の向上をもたらすと予測されている。 しかし、最近の顕著な進歩にもかかわらず、光共振器内の活性原子の連続的な負荷、冷却、ポンプを必要とするため、連続波の超ラジアントレーザーの実験的実現は依然として未解決の課題である。 本稿では, 単一モードキャビティ内に閉じ込められた冷媒ガスのバイクロマチックコヒーレントポンプによる2レベル原子状態に作用する光力を用いて, 連続的な利得を生み出す新しいシナリオを提案する。 原子メーザーのセットアップと同様に、基底状態の原子が撃退される間、強い原子-キャビティカップリングの領域で励起状態原子を収集し集中させるために、調整された状態依存力が使用される。 十分大きな原子アンサンブルの数値シミュレーションを容易にするために, 2次累積展開に依存し, 空洞軸に沿った光学的勾配力を誘導する位置依存光シフトを受ける半古典的点粒子近似における原子運動を記述する。 超放射能発光に必要なポンプレーザ強度とデチューニングの最小条件について検討した。 バランシングドップラー冷却と利得誘導加熱は、素原子周波数に近い連続狭帯域レーザー動作のパラメータ構造を同定する。

The implementation of a superradiant laser as an active frequency standard is predicted to provide better short-term stability and robustness to thermal and mechanical fluctuations when compared to standard passive optical clocks. However, despite significant recent progress, the experimental realization of continuous wave superradiant lasing still remains an open challenge as it requires continuous loading, cooling, and pumping of active atoms within an optical resonator. Here we propose a new scenario for creating continuous gain by using optical forces acting on the states of a two-level atom via bichromatic coherent pumping of a cold atomic gas trapped inside a single-mode cavity. Analogous to atomic maser setups, tailored state-dependent forces are used to gather and concentrate excited-state atoms in regions of strong atom-cavity coupling while ground-state atoms are repelled. To facilitate numerical simulations of a sufficiently large atomic ensemble, we rely on a second-order cumulant expansion and describe the atomic motion in a semi-classical point-particle approximation subject to position-dependent light shifts which induce optical gradient forces along the cavity axis. We study minimal conditions on pump laser intensities and detunings required for collective superradiant emission. Balancing Doppler cooling and gain-induced heating we identify a parameter regime of a continuous narrow-band laser operation close to the bare atomic frequency.
翻訳日:2023-11-06 18:04:40 公開日:2023-11-03
# スクランブルは必要ですが カオスには不十分です

Scrambling is Necessary but Not Sufficient for Chaos ( http://arxiv.org/abs/2304.07319v2 )

ライセンス: Link先を確認
Neil Dowling and Pavel Kos and Kavan Modi(参考訳) 時間外相関器(OTOC)がLocal-Operator Entanglement(LOE)のプローブとなることを示す。 LOEの体積成長が量子カオスの忠実な動的指標であることを示す強い証拠がある一方、OTOC崩壊は作用素の揺らぎに対応し、しばしばカオスと混同される。 我々は,loeエントロピーの線形(カオス)成長には,高速オトック崩壊は必要だが十分条件ではないことを示す。 我々は、積分可能回路と非積分可能回路の両方を含む多体力学の局所回路モデルの幅広いクラスを通して、解析的に結果を支持する。 局所力学がスクランブルとカオスの同値性をもたらす十分な条件を示す。

We show that out-of-time-order correlators (OTOCs) constitute a probe for Local-Operator Entanglement (LOE). There is strong evidence that a volumetric growth of LOE is a faithful dynamical indicator of quantum chaos, while OTOC decay corresponds to operator scrambling, often conflated with chaos. We show that rapid OTOC decay is a necessary but not sufficient condition for linear (chaotic) growth of the LOE entropy. We analytically support our results through wide classes of local-circuit models of many-body dynamics, including both integrable and non-integrable dual-unitary circuits. We show sufficient conditions under which local dynamics leads to an equivalence of scrambling and chaos.
翻訳日:2023-11-06 18:03:50 公開日:2023-11-03
# Squeezed Superradianceは、極めて不完全な読み出しでも頑健な絡み合い強化メロロジーを可能にする

Squeezed superradiance enables robust entanglement-enhanced metrology even with highly imperfect readout ( http://arxiv.org/abs/2304.05471v2 )

ライセンス: Link先を確認
Martin Koppenh\"ofer and Peter Groszkowski and A. A. Clerk(参考訳) 大きなスピンアンサンブルの絡み合った状態を用いた量子メロジクスプロトコルは、標準量子限界(sql)を超える測定感度を達成しようとするが、多くの場合、不完全なセンサー読み出しに関連する少量の技術的ノイズによって非常に制限される。 時間反転コヒーレントなスピンスクイーズ力学に基づく増幅戦略はこの問題を軽減するために考案されているが、残念ながら散逸に非常に敏感であり、大きな単一スピンの協調性が必要である。 本稿では,増幅と圧縮揺らぎを組み合わせた新しい散逸プロトコルを提案する。 重要な読み出しノイズが存在する場合でも、sqlをはるかに越えてセンシングするために、絡み合ったスピン状態を使用することができる。 さらに、望ましくないシングルスピン散逸に対して強い弾力性を有し、大きな集団協調性のみを効果的に要求する。

Quantum metrology protocols using entangled states of large spin ensembles attempt to achieve measurement sensitivities surpassing the standard quantum limit (SQL), but in many cases they are severely limited by even small amounts of technical noise associated with imperfect sensor readout. Amplification strategies based on time-reversed coherent spin-squeezing dynamics have been devised to mitigate this issue, but are unfortunately very sensitive to dissipation, requiring a large single-spin cooperativity to be effective. Here, we propose a new dissipative protocol that combines amplification and squeezed fluctuations. It enables the use of entangled spin states for sensing well beyond the SQL even in the presence of significant readout noise. Further, it has a strong resilience against undesired single-spin dissipation, requiring only a large collective cooperativity to be effective.
翻訳日:2023-11-06 18:03:39 公開日:2023-11-03
# 一般化平滑性下における凸および非凸最適化

Convex and Non-convex Optimization Under Generalized Smoothness ( http://arxiv.org/abs/2306.01264v2 )

ライセンス: Link先を確認
Haochuan Li, Jian Qian, Yi Tian, Alexander Rakhlin, Ali Jadbabaie(参考訳) 凸および非凸最適化手法の古典的な解析は、しばしば勾配のリプシッツ性を必要とし、これは解析を二次函数で有界な関数に制限する。 最近の研究は、勾配ノルムのアフィン関数で有界なヘッセンノルムを持つ非一様滑らか性条件にこの条件を緩和し、有界雑音を仮定して勾配クリッピングによる非凸設定において収束を証明した。 本稿では、この不均一な滑らかさ条件をさらに一般化し、軌道に沿った勾配を束縛する単純かつ強力な解析手法を開発し、凸と非凸の最適化問題に対してより強力な結果をもたらす。 特に、この一般的な滑らか性条件下での凸および/または非凸設定における(確率的)勾配降下の古典収束率とネステロフの加速勾配法を求める。 新しい分析手法では勾配クリッピングは必要とせず、確率的な設定において境界分散を伴う重尾のノイズを許容する。

Classical analysis of convex and non-convex optimization methods often requires the Lipshitzness of the gradient, which limits the analysis to functions bounded by quadratics. Recent work relaxed this requirement to a non-uniform smoothness condition with the Hessian norm bounded by an affine function of the gradient norm, and proved convergence in the non-convex setting via gradient clipping, assuming bounded noise. In this paper, we further generalize this non-uniform smoothness condition and develop a simple, yet powerful analysis technique that bounds the gradients along the trajectory, thereby leading to stronger results for both convex and non-convex optimization problems. In particular, we obtain the classical convergence rates for (stochastic) gradient descent and Nesterov's accelerated gradient method in the convex and/or non-convex setting under this general smoothness condition. The new analysis approach does not require gradient clipping and allows heavy-tailed noise with bounded variance in the stochastic setting.
翻訳日:2023-11-06 17:56:26 公開日:2023-11-03
# 大規模言語モデルを用いたドメイン固有言語生成のための文法プロンプト

Grammar Prompting for Domain-Specific Language Generation with Large Language Models ( http://arxiv.org/abs/2305.19234v3 )

ライセンス: Link先を確認
Bailin Wang, Zi Wang, Xuezhi Wang, Yuan Cao, Rif A. Saurous and Yoon Kim(参考訳) 大規模言語モデル(LLM)は、少数のインコンテキストの例から、幅広い自然言語タスクを実行することを学ぶことができる。 しかし、高度に構造化された言語(例えば、複雑なドメイン固有言語への意味解析)から文字列を生成するためには、LLMがいくつかの例から一般化することは困難である。 本稿では,LLM が外部知識や領域固有の制約を,文脈内学習中に Backus--Naur Form (BNF) の文法で表現できる簡単なアプローチである 'emph{grammar prompting' を提案する。 文法のプロンプトは、それぞれの実演例を、特定の出力例を生成するのに最小限の特殊な文法で拡張します。 推論のために、LLMはまずテスト入力が与えられたBNF文法を予測し、次に文法の規則に従って出力を生成する。 実験では、文法のプロンプトにより、セマンティックパーシング(SMCalFlow、Overnight、GeoQuery)、PDDL計画、SMILESベースの分子生成など、様々なDSL生成タスクでLLMが競争力を発揮することを示した。

Large language models (LLMs) can learn to perform a wide range of natural language tasks from just a handful of in-context examples. However, for generating strings from highly structured languages (e.g., semantic parsing to complex domain-specific languages), it is challenging for the LLM to generalize from just a few exemplars. We propose \emph{grammar prompting}, a simple approach to enable LLMs to use external knowledge and domain-specific constraints, expressed through a grammar in Backus--Naur Form (BNF), during in-context learning. Grammar prompting augments each demonstration example with a specialized grammar that is minimally sufficient for generating the particular output example, where the specialized grammar is a subset of the full DSL grammar. For inference, the LLM first predicts a BNF grammar given a test input, and then generates the output according to the rules of the grammar. Experiments demonstrate that grammar prompting can enable LLMs to perform competitively on a diverse set of DSL generation tasks, including semantic parsing (SMCalFlow, Overnight, GeoQuery), PDDL planning, and SMILES-based molecule generation.
翻訳日:2023-11-06 17:55:52 公開日:2023-11-03
# 平均不定長ロスレス量子ブロック符号化の最適下限

Optimal lower bound of the average indeterminate length lossless quantum block encoding ( http://arxiv.org/abs/2305.18748v2 )

ライセンス: Link先を確認
George Androulakis, Rabins Wosti(参考訳) 離散時間で放出される一般的な量子源は、歴史全体に依存する可能性のある確率分布に従って有限アルファベットから選択される量子純状態である。 また、2つの正の整数 $m$ と $l$ を固定する。 我々は、量子源から放出されるすべてのテンソル積 $ml$ を、各ブロックの長さ $l$ を持つ $m$ 個のブロックに分解し、各アイソメトリーがこれらのブロックの1つをフォック空間にエンコードし、そのイメージの連結を考慮すれば、任意のテンソル積 $ml$ を符号化する。 符号化状態の文字列が一意に決定可能であることを保証するため、「特別なブロック符号」と呼ぶようなアイソメトリの特定の配列のみを考える。 我々は、量子源と整数$m$, $l$に依存するこれらの符号化の最小平均コードワード長を、可能なすべての特別なブロックコードの中で計算する。 私たちの結果は[Bellomo, Bosyk, Holik, Zozor, Scientific Reports 7.1 (2017): 14765]の結果を拡張します。

Consider a general quantum source that emits at discrete time steps quantum pure states which are chosen from a finite alphabet according to some probability distribution which may depend on the whole history. Also, fix two positive integers $m$ and $l$. We encode any tensor product of $ml$ many states emitted by the quantum source by breaking it into $m$ many blocks where each block has length $l$, and considering sequences of $m$ many isometries so that each isometry encodes one of these blocks into the Fock space, followed by the concatenation of their images. We only consider certain sequences of such isometries that we call "special block codes" in order to ensure that the the string of encoded states is uniquely decodable. We compute the minimum average codeword length of these encodings which depends on the quantum source and the integers $m$, $l$, among all possible special block codes. Our result extends the result of [Bellomo, Bosyk, Holik and Zozor, Scientific Reports 7.1 (2017): 14765] where the minimum was computed for one block, i.e. for $m=1$.
翻訳日:2023-11-06 17:55:30 公開日:2023-11-03
# 大量鉱石から溶出する金: 臨界試料選択による効率的なデータセット蒸留

Distill Gold from Massive Ores: Efficient Dataset Distillation via Critical Samples Selection ( http://arxiv.org/abs/2305.18381v2 )

ライセンス: Link先を確認
Yue Xu, Yong-Lu Li, Kaitong Cui, Ziyu Wang, Cewu Lu, Yu-Wing Tai, Chi-Keung Tang(参考訳) データ効率の学習は、特にデータセットの蒸留が有効な解となる大規模なマルチモーダルモデルの現在の傾向を考えると、大きな注目を集めている。 しかし、データセットの蒸留プロセス自体は依然として非常に非効率である。 本研究では,情報伝達に着目して蒸留問題をモデル化する。 データセットの蒸留に重大なデータ冗長性が存在することを観察し、トレーニングサンプルの有用性をより強調する。 最適なデータ選択の包括的分析によって検証される,最も価値のあるサンプルを活用するための一連の手法を提案する。 新しい戦略はトレーニングコストを大幅に削減し、既存の蒸留アルゴリズムをより大きく、より多様化したデータセットに拡張する。 さらに, この戦略は, 蒸留とネットワークのダイナミクスに関する新たな分析を開拓し, 性能を継続的に向上させる。 本手法は,imagenet-1k や kinetics-400 など,より大規模なデータセットや不均一なデータセットに蒸留アルゴリズムを拡張できる。 私たちのコードはhttps://github.com/silicx/GoldFromOresで利用可能です。

Data-efficient learning has drawn significant attention, especially given the current trend of large multi-modal models, where dataset distillation can be an effective solution. However, the dataset distillation process itself is still very inefficient. In this work, we model the distillation problem with reference to information transport. Observing that severe data redundancy exists in dataset distillation, we argue to put more emphasis on the utility of the training samples. We propose a family of methods to exploit the most valuable samples, which is validated by our comprehensive analysis of the optimal data selection. The new strategy significantly reduces the training cost and extends a variety of existing distillation algorithms to larger and more diversified datasets, e.g., in some cases only 0.04% training data is sufficient for comparable distillation performance. Moreover, our strategy consistently enhances the performance, which may open up new analyses on the dynamics of distillation and networks. Our method is able to extend the distillation algorithms to much larger-scale datasets and more heterogeneous datasets, e.g., ImageNet-1K and Kinetics-400. Our code is available on https://github.com/silicx/GoldFromOres.
翻訳日:2023-11-06 17:55:03 公開日:2023-11-03
# PDEサロゲートモデリングのためのスケーラブルトランス

Scalable Transformer for PDE Surrogate Modeling ( http://arxiv.org/abs/2305.17560v2 )

ライセンス: Link先を確認
Zijie Li, Dule Shu, Amir Barati Farimani(参考訳) Transformerは様々なアプリケーションで最先端の性能を示しており、最近偏微分方程式(PDE)のサロゲートモデリングのための有望なツールとして登場した。 線形複雑度注意の導入にもかかわらず、多数の格子点を持つ問題にトランスフォーマーを適用することは、数値的に不安定で計算コストが高い。 本研究では,軸因子化カーネル積分に基づく因子化トランス(factformer)を提案する。 具体的には、入力関数を1次元領域を持つ複数のサブ関数に分解する学習可能な投影演算子を導入する。 これらのサブ関数は評価され、軸分解スキームでインスタンスベースのカーネルを計算するのに使用される。 2d kolmogorovフローを256\times 256$グリッドと3dスモーク浮力でシミュレートでき、精度と効率が良い6,4\times64\times64$グリッド上でシミュレートできることを示した。 提案手法は多次元問題に対処する際の全注目スキームに対する計算効率のよい低ランクサロゲートとして機能する。

Transformer has shown state-of-the-art performance on various applications and has recently emerged as a promising tool for surrogate modeling of partial differential equations (PDEs). Despite the introduction of linear-complexity attention, applying Transformer to problems with a large number of grid points can be numerically unstable and computationally expensive. In this work, we propose Factorized Transformer (FactFormer), which is based on an axial factorized kernel integral. Concretely, we introduce a learnable projection operator that decomposes the input function into multiple sub-functions with one-dimensional domain. These sub-functions are then evaluated and used to compute the instance-based kernel with an axial factorized scheme. We showcase that the proposed model is able to simulate 2D Kolmogorov flow on a $256\times 256$ grid and 3D smoke buoyancy on a $64\times64\times64$ grid with good accuracy and efficiency. The proposed factorized scheme can serve as a computationally efficient low-rank surrogate for the full attention scheme when dealing with multi-dimensional problems.
翻訳日:2023-11-06 17:54:45 公開日:2023-11-03
# LLMDet: サードパーティ製大規模言語モデル生成テキスト検出ツール

LLMDet: A Third Party Large Language Models Generated Text Detection Tool ( http://arxiv.org/abs/2305.15004v3 )

ライセンス: Link先を確認
Kangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng and Tat-Seng Chua(参考訳) 大規模言語モデル(LLM)から生成されたテキストは、高品質な人間によるテキストに非常に近いため、偽情報や学術的不正行為を広める際の誤用の可能性への懸念が高まっている。 これにより、与えられたテキストのソースを正確に識別できる高度に実用的な検出ツールが緊急に必要となる。 しかし、既存の検出ツールは一般的にLLMへのアクセスに依存しており、マシン生成テキストと人間によるテキストのみを区別することができ、きめ細かいトレーシング、中間判断、迅速な検出の要件を満たしていない。 そこで本研究では,GPT-2, OPT, LLaMAなどの特定のLLMからテキストを抽出可能な,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。 LLMDetでは、各LLMのプロキシパープレキシティを計算する機能として、有意なn-gramの次の確率を記録している。 llmのプロキシのパープレキシティを共同分析することで、生成されたテキストのソースを決定できる。 実験の結果、LLMDetは、速度と安全性を確保しつつ、優れた検出性能を示し、人間の許可されたテキストを認識するのに98.54%の精度とx5.0の速度を達成した。 さらにLLMDetは、その検出機能を新たなオープンソースモデルに拡張することも可能だ。 私たちはhttps://github.com/TrustedLLM/LLMDet.comでオープンソースツールを提供します。

Generated texts from large language models (LLMs) are remarkably close to high-quality human-authored text, raising concerns about their potential misuse in spreading false information and academic misconduct. Consequently, there is an urgent need for a highly practical detection tool capable of accurately identifying the source of a given text. However, existing detection tools typically rely on access to LLMs and can only differentiate between machine-generated and human-authored text, failing to meet the requirements of fine-grained tracing, intermediary judgment, and rapid detection. Therefore, we propose LLMDet, a model-specific, secure, efficient, and extendable detection tool, that can source text from specific LLMs, such as GPT-2, OPT, LLaMA, and others. In LLMDet, we record the next-token probabilities of salient n-grams as features to calculate proxy perplexity for each LLM. By jointly analyzing the proxy perplexities of LLMs, we can determine the source of the generated text. Experimental results show that LLMDet yields impressive detection performance while ensuring speed and security, achieving 98.54% precision and x5.0 faster for recognizing human-authored text. Additionally, LLMDet can effortlessly extend its detection capabilities to a new open-source model. We will provide an open-source tool at https://github.com/TrustedLLM/LLMDet.
翻訳日:2023-11-06 17:54:05 公開日:2023-11-03
# 画像キャプションの自動評価尺度におけるジェンダーバイアス

Gender Biases in Automatic Evaluation Metrics for Image Captioning ( http://arxiv.org/abs/2305.14711v3 )

ライセンス: Link先を確認
Haoyi Qiu, Zi-Yi Dou, Tianlu Wang, Asli Celikyilmaz, Nanyun Peng(参考訳) モデルに基づく評価指標(例えば、CLIPScoreとGPTScore)は、様々な言語生成タスクにおける人間の判断と十分な相関を示す。 しかし、フェアネスへの影響はほとんど未解明のままである。 事前訓練されたモデルは社会バイアスを不注意にエンコードできるため、評価目的にこれらのモデルを使用することでバイアスを不注意に持続し、増幅することができると広く認識されている。 例えば、評価基準は、画像が男性会計士のみを示す場合であっても、「男性が会計帳を計算している」というキャプションを「男性が会計帳を計算している」よりも好むことがある。 本稿では,画像キャプションタスクのためのモデルベース自動評価尺度における性別バイアスの体系的研究を行う。 まず、ステレオタイプのジェンダーアソシエーションに関連する職業、活動、および対象概念からなるデータセットをキュレートすることから始める。 そして、これらのバイアス付き指標を用いて、バイアス付き世代とバイアスなし世代を区別できないことや、強化学習による世代モデルへのバイアスの伝播など、負の結果を示す。 最後に,人間の判断との相関を損なうことなく,簡易かつ効果的な距離バイアス軽減手法を提案する。 我々のデータセットとフレームワークは、モデルに基づく評価指標の潜在的な害を理解し、より包括的な評価指標を開発するための将来の作業を促進する基盤を築いた。

Model-based evaluation metrics (e.g., CLIPScore and GPTScore) have demonstrated decent correlations with human judgments in various language generation tasks. However, their impact on fairness remains largely unexplored. It is widely recognized that pretrained models can inadvertently encode societal biases, thus employing these models for evaluation purposes may inadvertently perpetuate and amplify biases. For example, an evaluation metric may favor the caption "a woman is calculating an account book" over "a man is calculating an account book," even if the image only shows male accountants. In this paper, we conduct a systematic study of gender biases in model-based automatic evaluation metrics for image captioning tasks. We start by curating a dataset comprising profession, activity, and object concepts associated with stereotypical gender associations. Then, we demonstrate the negative consequences of using these biased metrics, including the inability to differentiate between biased and unbiased generations, as well as the propagation of biases to generation models through reinforcement learning. Finally, we present a simple and effective way to mitigate the metric bias without hurting the correlations with human judgments. Our dataset and framework lay the foundation for understanding the potential harm of model-based evaluation metrics, and facilitate future works to develop more inclusive evaluation metrics.
翻訳日:2023-11-06 17:53:42 公開日:2023-11-03
# レンダリングのない視覚的批判を用いたUI-to-Code逆生成器の学習

Learning UI-to-Code Reverse Generator Using Visual Critic Without Rendering ( http://arxiv.org/abs/2305.14637v2 )

ライセンス: Link先を確認
Davit Soselia, Khalid Saifullah, and Tianyi Zhou(参考訳) UIスクリーンショットからHTML/CSSコードのリバースエンジニアリングを自動化することは、Webサイトの開発と設計における幅広いアプリケーションにおいて重要な課題である。 本稿では、スクリーンショットを処理するビジョンエンコーダと、コードを生成する言語デコーダからなる新しいビジョンコード変換器(ViCT)を提案する。 ViT/DiTやGPT-2/LLaMAのような事前訓練されたモデルで初期化されるが、2つのモダリティの調整にはエンドツーエンドの微調整が必要である。 しかし、レンダリングは非微分可能であり、コストのかかるオーバーヘッドを引き起こす。 そこで,vir(visual critic without rendering)を開発したアクタ-クリティックな微調整により,オリジナルコードと生成されたコードとで視覚的な不一致を予測できる。 モデルをトレーニングし、評価するために、75,000以上のユニークな(コード、スクリーンショット)ペアで、さまざまな複雑さの2つの合成データセットを作成しました。 MSE,BLEU,IoUなどの自動メトリクスと新しいhtmlBLEUスコアを組み合わせたUI-to-Code性能の評価を行った。 ViCT は強力なベースラインモデル DiT-GPT2 より優れており、IoU は 0.64 から 0.79 に改善され、MSE は 12.25 から 9.02 に低下した。 より低い計算コストで、llamaのようなより大きなデコーダを使用する場合と同等の性能を達成できる。

Automated reverse engineering of HTML/CSS code from UI screenshots is an important yet challenging problem with broad applications in website development and design. In this paper, we propose a novel vision-code transformer (ViCT) composed of a vision encoder processing the screenshots and a language decoder to generate the code. They are initialized by pre-trained models such as ViT/DiT and GPT-2/LLaMA but aligning the two modalities requires end-to-end finetuning, which aims to minimize the visual discrepancy between the code-rendered webpage and the original screenshot. However, the rendering is non-differentiable and causes costly overhead. We address this problem by actor-critic fine-tuning where a visual critic without rendering (ViCR) is developed to predict visual discrepancy given the original and generated code. To train and evaluate our models, we created two synthetic datasets of varying complexity, with over 75,000 unique (code, screenshot) pairs. We evaluate the UI-to-Code performance using a combination of automated metrics such as MSE, BLEU, IoU, and a novel htmlBLEU score. ViCT outperforms a strong baseline model DiT-GPT2, improving IoU from 0.64 to 0.79 and lowering MSE from 12.25 to 9.02. With much lower computational cost, it can achieve comparable performance as when using a larger decoder such as LLaMA.
翻訳日:2023-11-06 17:53:21 公開日:2023-11-03
# 拡散モデルによる現実的な雑音合成

Realistic Noise Synthesis with Diffusion Models ( http://arxiv.org/abs/2305.14022v3 )

ライセンス: Link先を確認
Qi Wu, Mingyan Han, Ting Jiang, Haoqiang Fan, Bing Zeng, Shuaicheng Liu(参考訳) Deep Image Denoisingモデルは、しばしば高品質のパフォーマンスのために大量のトレーニングデータに依存します。 しかし,教師付きトレーニングでは,現実のシナリオ下で十分な量のデータを取得することは困難である。 そのため、現実的なノイズを合成することが重要な解決策となる。 しかし、既存の手法では複雑なノイズ分布のモデル化に制限があり、合成データに依存するノイズやエッジアーティファクトが残されている。 これらの課題を克服するために,拡散モデル,すなわちRealistic Noise Synthesize Diffusor (RNSD) を用いて現実的な雑音を合成する手法を提案する。 特に,提案する時間認識制御モジュールは,所定のカメラ設定下で様々な環境条件をシミュレートすることができる。 RNSDは、より現実的な空間相関を持つノイズを複数の周波数で生成できるように、ガイド付きマルチスケールコンテンツを組み込むことができる。 さらに,未知のカメラ設定を予測できるインバージョン機構を構築し,rnsdのデータセットへの拡張を情報の設定なしに可能にした。 広範囲にわたる実験により, rnsd法は, 合成雑音だけでなく, 単一画像のノイズ除去性能においても, 既存の手法を大きく上回ることを示した。

Deep image denoising models often rely on large amount of training data for the high quality performance. However, it is challenging to obtain sufficient amount of data under real-world scenarios for the supervised training. As such, synthesizing realistic noise becomes an important solution. However, existing techniques have limitations in modeling complex noise distributions, resulting in residual noise and edge artifacts in denoising methods relying on synthetic data. To overcome these challenges, we propose a novel method that synthesizes realistic noise using diffusion models, namely Realistic Noise Synthesize Diffusor (RNSD). In particular, the proposed time-aware controlling module can simulate various environmental conditions under given camera settings. RNSD can incorporate guided multiscale content, such that more realistic noise with spatial correlations can be generated at multiple frequencies. In addition, we construct an inversion mechanism to predict the unknown camera setting, which enables the extension of RNSD to datasets without setting information. Extensive experiments demonstrate that our RNSD method significantly outperforms the existing methods not only in the synthesized noise under multiple realism metrics, but also in the single image denoising performances.
翻訳日:2023-11-06 17:52:53 公開日:2023-11-03
# 知識アライメント問題:大規模言語モデルのための人間と外的知識のブリッジ

The Knowledge Alignment Problem: Bridging Human and External Knowledge for Large Language Models ( http://arxiv.org/abs/2305.13669v2 )

ライセンス: Link先を確認
Shuo Zhang, Liangming Pan, Junzhou Zhao, William Yang Wang(参考訳) 大規模な言語モデルは、信頼できる答えを生成するために、しばしば外部知識の基盤を必要とする。 しかし、基準に正しい根拠があるとしても、彼らはそれらを無視し、間違った根拠やその固有のバイアスに頼って、ユーザーが記憶されている情報の詳細をほとんど知らないときに幻覚を与えることができる。 本研究では,この知識アライメント問題を定式化し,ユーザと知識ベースの両方と相互作用するフレームワークであるMixAlignを導入する。 mixalignは、自動知識アライメントを達成するために言語モデルを採用しており、必要に応じて、このアライメントをさらに人間ユーザの明確化を通じて強化する。 実験結果は、モデル性能の向上と幻覚の緩和における知識アライメントの重要な役割を強調し、それぞれ22.2%と27.1%の改善が指摘された。 また,ハイクオリティでユーザ中心の明確化を行うことで,知識アライメントの改善にmixalignの有効性を示す。

Large language models often necessitate grounding on external knowledge to generate faithful and reliable answers. Yet even with the correct groundings in the reference, they can ignore them and rely on wrong groundings or their inherent biases to hallucinate when users, being largely unaware of the specifics of the stored information, pose questions that might not directly correlate with the retrieved groundings. In this work, we formulate this knowledge alignment problem and introduce MixAlign, a framework that interacts with both the human user and the knowledge base to obtain and integrate clarifications on how the user question relates to the stored information. MixAlign employs a language model to achieve automatic knowledge alignment and, if necessary, further enhances this alignment through human user clarifications. Experimental results highlight the crucial role of knowledge alignment in boosting model performance and mitigating hallucination, with improvements noted up to 22.2% and 27.1% respectively. We also demonstrate the effectiveness of MixAlign in improving knowledge alignment by producing high-quality, user-centered clarifications.
翻訳日:2023-11-06 17:52:34 公開日:2023-11-03
# Flover: 効率的な自己回帰モデル並列推論のための時間統合フレームワーク

Flover: A Temporal Fusion Framework for Efficient Autoregressive Model Parallel Inference ( http://arxiv.org/abs/2305.13484v3 )

ライセンス: Link先を確認
Jinghan Yao, Nawras Alnaasan, Tian Chen, Aamir Shafi, Hari Subramoni, Dhabaleswar K. (DK) Panda(参考訳) 自己回帰モデルは、数え切れないほどの多くの生成的タスクのパフォーマンスにもかかわらず、本質的にシーケンシャルな構造から引き起こされる課題に直面します。 これらのモデルの推論は、設計上、現在のトークンの確率分布が前のトークンで条件付けされる時間依存性を利用する。 この固有の特徴は、典型的な推論要求である推論の間、計算効率を著しく損なうため、数千以上のトークンが必要となり、各トークンを生成するにはモデル全体の重みの負荷が必要となり、推論をよりメモリバウンドにする。 リクエストがランダムに到着する実際のデプロイメントでは大きなオーバーヘッドが深くなり、さまざまな生成時間が必要になる。 動的バッチや並行インスタンスといった既存のソリューションでは、応答遅延と帯域幅の競合が発生し、最適なレイテンシとスループットが達成できない。 そこで我々は,複数の要求を並列に推定する時間的融合フレームワークであるfloverを提案する。 一般的な生成パイプラインを前処理とトークン生成に分解し、すべての要求に対して時間的に生成プロセスを融合させる専用の作業スケジューラをフレームワークに装備する。 トークンレベルの並列性のオーケストレーションによって、Floverは最適なハードウェア効率を示し、システムリソースを著しく節約する。 さらに、完了したタスクのメモリ消去を可能にする高速バッファリオーダアルゴリズムを採用することで、NVIDIA FasterTransformerが提供する最先端ソリューションと比較して、GPTで11倍、LLAMAで16倍の推論高速化を実現している。 重要なのは、先進的なテンソル並列技術を活用することで、単一gpuセットアップから分散シナリオまで、さまざまな計算環境にまたがって有効性が証明され、可変ユースケースに適応する堅牢なパフォーマンス最適化を提供する。

Autoregressive models, despite their commendable performance in a myriad of generative tasks, face challenges stemming from their inherently sequential structure. Inference on these models, by design, harnesses a temporal dependency, where the current token's probability distribution is conditioned on preceding tokens. This inherent characteristic severely impedes computational efficiency during inference as a typical inference request can require more than thousands of tokens, where generating each token requires a load of entire model weights, making the inference more memory-bound. The large overhead becomes profound in real deployment where requests arrive randomly, necessitating various generation lengths. Existing solutions, such as dynamic batching and concurrent instances, introduce significant response delays and bandwidth contention, falling short of achieving optimal latency and throughput. To address these shortcomings, we propose Flover -- a temporal fusion framework for efficiently inferring multiple requests in parallel. We deconstruct the general generation pipeline into pre-processing and token generation, and equip the framework with a dedicated work scheduler for fusing the generation process temporally across all requests. By orchestrating the token-level parallelism, Flover exhibits optimal hardware efficiency and significantly spares the system resources. By further employing a fast buffer reordering algorithm that allows memory eviction of finished tasks, it brings over 11x inference speedup on GPT and 16x on LLAMA compared to the cutting-edge solutions provided by NVIDIA FasterTransformer. Crucially, by leveraging the advanced tensor parallel technique, Flover proves efficacious across diverse computational landscapes, from single-GPU setups to distributed scenarios, thereby offering robust performance optimization that adapts to variable use cases.
翻訳日:2023-11-06 17:52:13 公開日:2023-11-03
# 量子通信用cバンド量子ドットのロバスト励起

Robust excitation of C-band quantum dots for quantum communication ( http://arxiv.org/abs/2305.13273v2 )

ライセンス: Link先を確認
Michal Vyvlecka, Lennart Jehle, Cornelius Nawrath, Francesco Giorgino, Mathieu Bozzio, Robert Sittig, Michael Jetter, Simone L. Portalupi, Peter Michler, and Philip Walther(参考訳) 量子インターネットを構築するには、フォトニックソースから量子リピータや検出器まで、効率的で信頼性の高い量子ハードウェアが必要です。 高い明るさと単一光子純度のおかげで、量子ドット(QD)ソースは、量子セキュリティネットワークアプリケーションに対する高い通信速度を達成するという約束を持っている。 さらに, 放射光子数状態間のコヒーレンスをスクランブルすることで, 長手型音響フォノンアシスト(LA)ポンプなどの励振方式により, 安全性が向上することを示した。 本研究では,量子インターネットのコアハードウェアコンポーネントとして,通信用Cバンドの発光を伴うLA励起量子ドットのさらなる利点について検討する。 実験により, 励起エネルギーとスペクトル偏差の変化が, 量子セキュリティ通信速度を向上し, ネットワーク環境変動によらず, 安定した放射統計を提供することを示す。 これらの発見は、実用的な量子通信ネットワークにおけるqd単一光子源の一般実装に重要な意味を持つ。

Building a quantum internet requires efficient and reliable quantum hardware, from photonic sources to quantum repeaters and detectors, ideally operating at telecommunication wavelengths. Thanks to their high brightness and single-photon purity, quantum dot (QD) sources hold the promise to achieve high communication rates for quantum-secured network applications. Furthermore, it was recently shown that excitation schemes, such as longitudinal acoustic phonon-assisted (LA) pumping, provide security benefits by scrambling the coherence between the emitted photon-number states. In this work, we investigate further advantages of LA-pumped quantum dots with emission in the telecom C-band as a core hardware component of the quantum internet. We experimentally demonstrate how varying the pump energy and spectral detuning with respect to the excitonic transition can improve quantum-secured communication rates and provide stable emission statistics regardless of network-environment fluctuations. These findings have significant implications for general implementations of QD single-photon sources in practical quantum communication networks.
翻訳日:2023-11-06 17:51:41 公開日:2023-11-03
# 3次元分子前処理のためのフラクタルデノイング

Fractional Denoising for 3D Molecular Pre-training ( http://arxiv.org/abs/2307.10683v2 )

ライセンス: Link先を確認
Shikun Feng and Yuyan Ni and Yanyan Lan and Zhi-Ming Ma and Wei-Ying Ma(参考訳) coordinate denoisingは有望な3d分子前訓練法であり、様々な下流の薬物発見タスクで顕著な性能を達成した。 理論的には、この目的は下流のタスクに有用な力場を学ぶことと等価である。 それにもかかわらず、効果的な力場、すなわち、低カバレッジサンプルと等方力場を学ぶための座標化の課題は2つある。 その根底にある理由は、既存の分極法によって仮定される分子分布が分子の異方性特性を捉えないからである。 これらの課題に対処するために,2面天使と座標の両方のノイズを含む,新しいハイブリッドノイズ戦略を提案する。 しかし、そのようなハイブリッドノイズを伝統的な方法で発音することは、もはや力場を学ぶことと等価ではない。 理論的推論により、この問題は共分散に対する入力コンホメーションの依存性によって引き起こされる。 そこで本研究では,2種類の雑音を分離し,後者の座標部のみをデノー化する新しい分数デノージング法(frad)を設計することを提案する。 このように、フラッドはより低エネルギーな構造をサンプリングする利点と力場等価性の両方を享受している。 広範な実験により、分子表現におけるfradの有効性が示され、qm9の12のタスクのうち9つとmd17の8つのターゲットのうち7つに新しい状態が示された。

Coordinate denoising is a promising 3D molecular pre-training method, which has achieved remarkable performance in various downstream drug discovery tasks. Theoretically, the objective is equivalent to learning the force field, which is revealed helpful for downstream tasks. Nevertheless, there are two challenges for coordinate denoising to learn an effective force field, i.e. low coverage samples and isotropic force field. The underlying reason is that molecular distributions assumed by existing denoising methods fail to capture the anisotropic characteristic of molecules. To tackle these challenges, we propose a novel hybrid noise strategy, including noises on both dihedral angel and coordinate. However, denoising such hybrid noise in a traditional way is no more equivalent to learning the force field. Through theoretical deductions, we find that the problem is caused by the dependency of the input conformation for covariance. To this end, we propose to decouple the two types of noise and design a novel fractional denoising method (Frad), which only denoises the latter coordinate part. In this way, Frad enjoys both the merits of sampling more low-energy structures and the force field equivalence. Extensive experiments show the effectiveness of Frad in molecular representation, with a new state-of-the-art on 9 out of 12 tasks of QM9 and on 7 out of 8 targets of MD17.
翻訳日:2023-11-06 17:43:42 公開日:2023-11-03
# 協調一貫性学習によるユニバーサル半教師付きモデル適応

Universal Semi-supervised Model Adaptation via Collaborative Consistency Training ( http://arxiv.org/abs/2307.03449v2 )

ライセンス: Link先を確認
Zizheng Yan, Yushuang Wu, Yipeng Qin, Xiaoguang Han, Shuguang Cui, Guanbin Li(参考訳) 本稿では,universal semi-supervised model adaptation (usma) という,現実的で挑戦的な領域適応問題を提案する。 i) 事前訓練されたソースモデルのみを必要とする。 二 ソース及びターゲットドメインが異なるラベルセットを持つこと、すなわち、共通のラベルセットを共有して、独自のプライベートラベルセットを保持することができること。 iii) ターゲットドメインの各クラスにラベル付きサンプルをわずかに必要とします。 USMAに対処するため、我々は2つのモデル間の予測整合性、すなわち、事前学習されたソースモデルと、ターゲットデータのみで事前学習された派生モデルとの予測整合性を規則化し、それらの相補的な強みを組み合わせてより強力なモデルを学ぶための協調的整合性トレーニングフレームワークを提案する。 このフレームワークの理論的根拠は、ソースモデルがターゲットのみのモデルよりも共通のカテゴリでより良い性能を発揮するのに対し、ターゲットのみのモデルでは、ターゲットのみのモデルの方が優れた性能を発揮することに由来する。 また,トレーニングを改善するために,サンプル単位とクラス単位の2つのパースペクティブな一貫性規則化を提案する。 実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。

In this paper, we introduce a realistic and challenging domain adaptation problem called Universal Semi-supervised Model Adaptation (USMA), which i) requires only a pre-trained source model, ii) allows the source and target domain to have different label sets, i.e., they share a common label set and hold their own private label set, and iii) requires only a few labeled samples in each class of the target domain. To address USMA, we propose a collaborative consistency training framework that regularizes the prediction consistency between two models, i.e., a pre-trained source model and its variant pre-trained with target data only, and combines their complementary strengths to learn a more powerful model. The rationale of our framework stems from the observation that the source model performs better on common categories than the target-only model, while on target-private categories, the target-only model performs better. We also propose a two-perspective, i.e., sample-wise and class-wise, consistency regularization to improve the training. Experimental results demonstrate the effectiveness of our method on several benchmark datasets.
翻訳日:2023-11-06 17:43:15 公開日:2023-11-03
# LLQL: 強化学習のためのロジスティックなQラーニング

LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning ( http://arxiv.org/abs/2307.02345v3 )

ライセンス: Link先を確認
Outongyi Lv and Bingxin Zhou(参考訳) 現代の強化学習(RL)はオンラインとオフラインに分類できる。 オンラインRLとオフラインRLの両方の重要な側面として、ベルマン方程式の現在の研究は、その分布特性のようなベルマン誤差の本質的な構造的特性を探求するよりも、主に最適化技術と性能向上に焦点を当てている。 本研究では,ベルマン方程式の反復探索により,オンラインおよびオフラインの両方の設定におけるベルマン近似誤差の分布について検討した。 我々はオンラインRLとオフラインRLの両方において、ベルマン誤差がロジスティック分布に一致することを示した。 この発見に基づいて、ベルマンの誤差が正規分布に従属すると仮定して、この研究はよく使われるMSE損失の代替としてロジスティックス最大極大関数 (LLoss) を用いた。 オンラインとオフラインの多様な環境にまたがる広範な数値実験を通じて仮説を検証した。 特に,様々なベースラインアルゴリズム間での損失関数の補正を行い,ロジスティック補正による損失関数がMSEよりも有意に優れていたことを一貫して観察した。 さらに,ロジスティック分布の信頼性を確認するためにkolmogorov-smirnov試験を行った。 この研究の理論的および経験的洞察は、ベルマン誤差の分布を中心とした将来の調査と強化のための貴重な基礎となる。

Modern reinforcement learning (RL) can be categorized into online and offline variants. As a pivotal aspect of both online and offline RL, current research on the Bellman equation revolves primarily around optimization techniques and performance enhancement rather than exploring the inherent structural properties of the Bellman error, such as its distribution characteristics. This study investigates the distribution of the Bellman approximation error in both online and offline settings through iterative exploration of the Bellman equation. We observed that both in online RL and offline RL, the Bellman error conforms to a Logistic distribution. Building upon this discovery, this study employed the Logistics maximum likelihood function (LLoss) as an alternative to the commonly used MSE Loss, assuming that Bellman errors adhere to a normal distribution. We validated our hypotheses through extensive numerical experiments across diverse online and offline environments. In particular, we applied corrections to the loss function across various baseline algorithms and consistently observed that the loss function with Logistic corrections outperformed the MSE counterpart significantly. Additionally, we conducted Kolmogorov-Smirnov tests to confirm the reliability of the Logistic distribution. This study's theoretical and empirical insights provide valuable groundwork for future investigations and enhancements centered on the distribution of Bellman errors.
翻訳日:2023-11-06 17:42:56 公開日:2023-11-03
# 局所応答:単純かつ累積的な回帰最小化のための文脈帯域

Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization ( http://arxiv.org/abs/2307.02108v3 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Ruohan Zhan, Susan Athey, Emma Brunskill(参考訳) 医療や電子商取引など多くの応用において、文脈的盗賊の目標は、実験の終わりに最適な治療の割り当てポリシーを学ぶことであるかもしれない。 つまり、単純な後悔を最小限に抑えることです。 しかし、この目的はまだ未定である。 本稿では,確率的文脈的帯域設定のための計算効率の良い帯域幅アルゴリズムの新たなファミリを提案する。そこでは,累積後悔最小化(準最適最小化)と単純後悔最小化(最先端保証の確立)の重みをチューニングパラメータが決定する。 我々のアルゴリズムは任意の関数クラスで動作し、モデルの誤特定に頑健であり、継続的なarm設定で使用できる。 この柔軟性は、"conformal arm sets"(cass)の構築と依存から生まれる。 CASは、コンテキスト分布にまたがる特定の確率で、コンテキスト固有の最適アームを含む、コンテキスト毎に一組のアームを提供する。 単純かつ累積的後悔保証に対する我々の肯定的な結果は負の結果と対比され、最小限の累積後悔保証を同時に達成しながら、インスタンス依存の単純な後悔保証を達成できないことを示す。

In many applications, e.g. in healthcare and e-commerce, the goal of a contextual bandit may be to learn an optimal treatment assignment policy at the end of the experiment. That is, to minimize simple regret. However, this objective remains understudied. We propose a new family of computationally efficient bandit algorithms for the stochastic contextual bandit setting, where a tuning parameter determines the weight placed on cumulative regret minimization (where we establish near-optimal minimax guarantees) versus simple regret minimization (where we establish state-of-the-art guarantees). Our algorithms work with any function class, are robust to model misspecification, and can be used in continuous arm settings. This flexibility comes from constructing and relying on "conformal arm sets" (CASs). CASs provide a set of arms for every context, encompassing the context-specific optimal arm with a certain probability across the context distribution. Our positive results on simple and cumulative regret guarantees are contrasted with a negative result, which shows that no algorithm can achieve instance-dependent simple regret guarantees while simultaneously achieving minimax optimal cumulative regret guarantees.
翻訳日:2023-11-06 17:42:35 公開日:2023-11-03
# 輸送・変分推論・拡散--アニール流れとシュル=オディンガー橋への適用

Transport, Variational Inference and Diffusions: with Applications to Annealed Flows and Schr\"odinger Bridges ( http://arxiv.org/abs/2307.01050v3 )

ライセンス: Link先を確認
Francisco Vargas, Nikolas N\"usken(参考訳) 本稿では, 最適輸送と変分推論の関係を, 前方および逆時間確率微分方程式とガーサノフ変換に焦点をあてて検討し, 経路空間上の発散を中心として, サンプリングおよび生成モデリングを行うための原理的・系統的枠組みを提案する。 本研究は,標準的なipfの逐次的性質から外れた,新たなスコアベースアニールドフロー手法(jarzynski と crooks identity from statistical physics との関連)と正規化反復比例結合(regularized iterative proportional fit, ipf)型目標の開発に結実する。 一連の生成モデリング例とダブルウェルに基づくレアイベントタスクを通じて,提案手法の可能性を示す。

This paper explores the connections between optimal transport and variational inference, with a focus on forward and reverse time stochastic differential equations and Girsanov transformations.We present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of a novel score-based annealed flow technique (with connections to Jarzynski and Crooks identities from statistical physics) and a regularised iterative proportional fitting (IPF)-type objective, departing from the sequential nature of standard IPF. Through a series of generative modelling examples and a double-well-based rare event task, we showcase the potential of the proposed methods.
翻訳日:2023-11-06 17:41:57 公開日:2023-11-03
# Relaxed Pareto Set Identificationのための適応アルゴリズム

Adaptive Algorithms for Relaxed Pareto Set Identification ( http://arxiv.org/abs/2307.00424v2 )

ライセンス: Link先を確認
Cyrille Kone, Emilie Kaufmann, Laura Richert(参考訳) 本稿では,多目的多目的バンディットモデルにおけるパレート最適集合の固定信頼度同定を再考する。 正確なパレート集合を同定するサンプルの複雑さは非常に大きいため、さらなる準最適腕を出力できる緩和法が研究されている。 この研究では、代わりにパレート集合の関連する部分集合を特定できる代替緩和にも取り組みます。 特に,pareto集合同定問題の異なる緩和を考慮に入れるために,異なる停止規則とともに使用できる適応パレート探索と呼ばれる単一サンプリング戦略を提案する。 これらの組み合わせのサンプルの複雑さを分析し、特にパレートの最適アームを最大$kで識別しようとすると生じるサンプルの複雑さの減少を定量化する。 複数の免疫原性基準を考慮に入れた場合に最適なものを見つけるために、Covid-19に対するいくつかの予防接種戦略を適応的に探求する現実のシナリオにおいて、Adaptive Pareto Explorationの優れた実用性能を示す。

In this paper we revisit the fixed-confidence identification of the Pareto optimal set in a multi-objective multi-armed bandit model. As the sample complexity to identify the exact Pareto set can be very large, a relaxation allowing to output some additional near-optimal arms has been studied. In this work we also tackle alternative relaxations that allow instead to identify a relevant subset of the Pareto set. Notably, we propose a single sampling strategy, called Adaptive Pareto Exploration, that can be used in conjunction with different stopping rules to take into account different relaxations of the Pareto Set Identification problem. We analyze the sample complexity of these different combinations, quantifying in particular the reduction in sample complexity that occurs when one seeks to identify at most $k$ Pareto optimal arms. We showcase the good practical performance of Adaptive Pareto Exploration on a real-world scenario, in which we adaptively explore several vaccination strategies against Covid-19 in order to find the optimal ones when multiple immunogenicity criteria are taken into account.
翻訳日:2023-11-06 17:41:41 公開日:2023-11-03
# 未知・ランダム・リワードを持つ腕に異種資源を割り当てる

Allocating Divisible Resources on Arms with Unknown and Random Rewards ( http://arxiv.org/abs/2306.16578v2 )

ライセンス: Link先を確認
Ningyuan Chen, Wenhao Li(参考訳) 我々は,各期間に再生可能かつ分別可能な資源の1つの単位を,複数のアームで割り当てる意思決定者を考える。 アームには未知およびランダムな報酬があり、その手段は割り当てられたリソースに比例し、その分散は割り当てられたリソースのオーダー$b$に比例する。 特に、ある期間に意思決定者がリソース$a_i$をarm$i$に割り当てると、報酬$y_i$は$y_i(a_i)=a_i \mu_i+a_i^b \xi_{i}$となる。 b$ が 0 から 1 まで変化すると、フレームワークは標準の確率的多腕バンディットとオンライン学習を完全なフィードバックでスムーズに橋渡しする。 最適なギャップ依存とギャップ非依存の残差境界を$b\in [0,1]$で設計し,$b=1/2$で相転移を示す。 理論的な結果は、重みが分数であり、濾過に適応し、単調なサブガウス確率変数の線形結合を境界とする、新しい濃度不等式にかかっている。

We consider a decision maker allocating one unit of renewable and divisible resource in each period on a number of arms. The arms have unknown and random rewards whose means are proportional to the allocated resource and whose variances are proportional to an order $b$ of the allocated resource. In particular, if the decision maker allocates resource $A_i$ to arm $i$ in a period, then the reward $Y_i$ is$Y_i(A_i)=A_i \mu_i+A_i^b \xi_{i}$, where $\mu_i$ is the unknown mean and the noise $\xi_{i}$ is independent and sub-Gaussian. When the order $b$ ranges from 0 to 1, the framework smoothly bridges the standard stochastic multi-armed bandit and online learning with full feedback. We design two algorithms that attain the optimal gap-dependent and gap-independent regret bounds for $b\in [0,1]$, and demonstrate a phase transition at $b=1/2$. The theoretical results hinge on a novel concentration inequality we have developed that bounds a linear combination of sub-Gaussian random variables whose weights are fractional, adapted to the filtration, and monotonic.
翻訳日:2023-11-06 17:41:24 公開日:2023-11-03
# 自動運転の軌道予測で本当に重要なのは何か?

What Truly Matters in Trajectory Prediction for Autonomous Driving? ( http://arxiv.org/abs/2306.15136v2 )

ライセンス: Link先を確認
Phong Tran, Haoran Wu, Cunjun Yu, Panpan Cai, Sifa Zheng, David Hsu(参考訳) 軌道予測は自動運転システムの性能において重要な役割を担っており、平均変位誤差(ade)や最終変位誤差(fde)といった予測精度が性能指標として広く用いられている。 しかし,動力学的なギャップのため,車両制御に下流の予測器を使用する場合,固定データセットにおける予測器の精度と運転性能との間には大きな差がある。 現実の世界では、予測アルゴリズムがエゴ車の挙動に影響を与え、それによって近くの他の車両の挙動に影響を及ぼす。 この相互作用は、予測結果に直接影響を及ぼす予測者固有のダイナミクスをもたらす。 固定データセットでは、他の車両の応答が予め決められているため、この相互作用効果が失われ、大きなダイナミクスギャップが生じる。 本稿では,このダイナミクスギャップの見過ごされた重要性について考察する。 また,予測性能と運転性能の差に寄与する要因についても検討した。 その結果,現実の運転性能を決定する際の予測器の計算効率と予測精度のトレードオフが明らかになった。 要約すると、軌道予測のための対話型タスク駆動評価プロトコルは、自動運転の有効性を捉えるために不可欠である。 ソースコードと実験的な設定はオンラインで入手できる。

Trajectory prediction plays a vital role in the performance of autonomous driving systems, and prediction accuracy, such as average displacement error (ADE) or final displacement error (FDE), is widely used as a performance metric. However, a significant disparity exists between the accuracy of predictors on fixed datasets and driving performance when the predictors are used downstream for vehicle control, because of a dynamics gap. In the real world, the prediction algorithm influences the behavior of the ego vehicle, which, in turn, influences the behaviors of other vehicles nearby. This interaction results in predictor-specific dynamics that directly impacts prediction results. In fixed datasets, since other vehicles' responses are predetermined, this interaction effect is lost, leading to a significant dynamics gap. This paper studies the overlooked significance of this dynamics gap. We also examine several other factors contributing to the disparity between prediction performance and driving performance. The findings highlight the trade-off between the predictor's computational efficiency and prediction accuracy in determining real-world driving performance. In summary, an interactive, task-driven evaluation protocol for trajectory prediction is crucial to capture its effectiveness for autonomous driving. Source code along with experimental settings is available online.
翻訳日:2023-11-06 17:40:37 公開日:2023-11-03
# 高次元システムにおける量子不整合資源の階層性

Witnessing the Hierarchy of Quantum Incompatibility Resources in High-Dimensional Systems ( http://arxiv.org/abs/2306.12122v3 )

ライセンス: Link先を確認
Xiaolin Zhang, Rui Qu, Zehong Chang, Yunlong Wang, Zhenyu Guo, Min An, Hong Gao, Fuli Li and Pei Zhang(参考訳) 量子不適合性(quantum incompatibility)は、いくつかの量子測定が同時に実行できない現象であり、様々な量子情報タスクで用いられる。 しかし、与えられた複数の高次元の測定セットが特定の非互換構造を尊重するかどうかを証明することは依然として困難である。 そこで本研究では,複雑な相性構造をペアワイズ構造に分解し,ノイズロバスト性を用いて非相性構造を目撃する修正量子状態識別プロトコルを提案する。 本手法は,クトリット系における4ドル非バイアス塩基の非互換構造を実験的に検証することにより,真正のn$-wise非互換構造および特定の一般互換性構造を検出することができる。 実験の結果,本手法は不整合構造,すなわち量子不整合資源の階層を観察できることがわかった。

Quantum incompatibility is referred as the phenomenon that some quantum measurements cannot be performed simultaneously, and is also used in various quantum information tasks. However, it is still a challenge to certify whether a given set of multiple high-dimensional measurements respects a specific structure of incompatibility. To address this problem, we propose a modified quantum state discrimination protocol that decomposes complex compatibility structures into pair-wise ones and employs noise robustness to witness incompatibility structures. Our method is capable of detecting genuine $n$-wise incompatibility and some specific general compatibility structures, as demonstrated by our experimental verification of incompatibility structures of $4$ mutually unbiased bases in a qutrit system. The experimental results show that our approach is able to witness incompatibility structures, i.e., the hierarchy of quantum incompatibility resources.
翻訳日:2023-11-06 17:40:16 公開日:2023-11-03
# モニタを用いたグローバルコンテキストによるコードの言語モデル誘導

Guiding Language Models of Code with Global Context using Monitors ( http://arxiv.org/abs/2306.10763v2 )

ライセンス: Link先を確認
Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K. Lahiri, Sriram K. Rajamani(参考訳) コード(LM)の言語モデルは、周囲のコードが十分なコンテキストを提供するときにうまく機能します。 これは、リポジトリやリンクライブラリの他で定義されている型、機能、APIを使用する必要がある場合、特にトレーニング中に見えない場合に当てはまる。 LMはそのようなグローバルな文脈に対する認識が限られ、幻覚に陥る。 統合開発環境(IDE)は、静的解析を使ってリポジトリのコンテキストを理解するのを支援する。 私たちはこの支援を開発者によって、LMに拡張します。 本研究では,モニタが静的解析を用いて復号を誘導するモニタ誘導復号 (mgd) を提案する。 Java のメソッド補完のためのリポジトリレベルのデータセット PragmaticCode を構築し,MGD の評価を行う。 様々なパラメータスケールのモデルにおいて、型一貫性のあるオブジェクト参照の監視により、MGDは一貫してコンパイル率と基底真理との一致を改善する。 さらに、MGDで拡張した場合、パラメータが少ないLMはより大きなLMより優れる。 MGDでは、SantaCoder-1.1Bはより大きなテキストダヴィンチ003モデルよりもコンパイル率と次の識別子マッチングが優れている。 また、mgdが複数のプログラミング言語(java、c#、rust)に一般化する能力、コーディングシナリオ(メソッド呼び出しに対する引数の正しい数など)、よりリッチなセマンティクス制約(ステートフルapiプロトコルなど)を強制する能力を評価するための一般化可能性の研究も行っています。 私たちのデータと実装はhttps://github.com/microsoft/monitors4codegenで利用可能です。

Language models of code (LMs) work well when the surrounding code provides sufficient context. This is not true when it becomes necessary to use types, functionality or APIs defined elsewhere in the repository or a linked library, especially those not seen during training. LMs suffer from limited awareness of such global context and end up hallucinating. Integrated development environments (IDEs) assist developers in understanding repository context using static analysis. We extend this assistance, enjoyed by developers, to LMs. We propose monitor-guided decoding (MGD) where a monitor uses static analysis to guide the decoding. We construct a repository-level dataset PragmaticCode for method-completion in Java and evaluate MGD on it. On models of varying parameter scale, by monitoring for type-consistent object dereferences, MGD consistently improves compilation rates and agreement with ground truth. Further, LMs with fewer parameters, when augmented with MGD, can outperform larger LMs. With MGD, SantaCoder-1.1B achieves better compilation rate and next-identifier match than the much larger text-davinci-003 model. We also conduct a generalizability study to evaluate the ability of MGD to generalize to multiple programming languages (Java, C# and Rust), coding scenarios (e.g., correct number of arguments to method calls), and to enforce richer semantic constraints (e.g., stateful API protocols). Our data and implementation are available at https://github.com/microsoft/monitors4codegen .
翻訳日:2023-11-06 17:39:51 公開日:2023-11-03
# 有限時間対数ベイズ上界を後悔する

Finite-Time Logarithmic Bayes Regret Upper Bounds ( http://arxiv.org/abs/2306.09136v2 )

ライセンス: Link先を確認
Alexia Atsidakou, Branislav Kveton, Sumeet Katariya, Constantine Caramanis, and Sujay Sanghavi(参考訳) ベイジアン・バンディットに対する最初の有限時間対数ベイズ後悔の上界を導出する。 gaussian bandits では、c_h$ と $c_\delta$ はそれぞれ事前分布とそれからサンプリングされたランダムバンディットインスタンスのギャップに依存する定数である上信頼境界アルゴリズムに対して、$o(c_\delta \log n)$ と $o(c_h \log^2n)$ が与えられる。 後者の境界は Lai (1987) の下界と漸近的に一致する。 我々の証明は、単純で汎用的でありながら、先行研究から大きな技術的逸脱である。 本手法の一般性を示すため,線形包帯に適用する。 この結果は,目的と学習者に与えた副情報の両方において,ベイズ設定における事前値に関する洞察を与える。 これらは既存の$\tilde{o}(\sqrt{n})$境界によって著しく改善され、既存の下限にもかかわらず文献では標準となっている。

We derive the first finite-time logarithmic Bayes regret upper bounds for Bayesian bandits. In Gaussian bandits, we obtain $O(c_\Delta \log n)$ and $O(c_h \log^2 n)$ bounds for an upper confidence bound algorithm, where $c_h$ and $c_\Delta$ are constants depending on the prior distribution and the gaps of random bandit instances sampled from it, respectively. The latter bound asymptotically matches the lower bound of Lai (1987). Our proofs are a major technical departure from prior works, while being simple and general. To show the generality of our techniques, we apply them to linear bandits. Our results provide insights on the value of prior in the Bayesian setting, both in the objective and as a side information given to the learner. They significantly improve upon existing $\tilde{O}(\sqrt{n})$ bounds, which have become standard in the literature despite the existing lower bounds.
翻訳日:2023-11-06 17:39:27 公開日:2023-11-03
# 未知の介入による非パラメトリック潜在因果グラフの学習

Learning nonparametric latent causal graphs with unknown interventions ( http://arxiv.org/abs/2306.02899v2 )

ライセンス: Link先を確認
Yibo Jiang, Bryon Aragam(参考訳) 潜在因果グラフが非パラメトリック同定可能であり、潜在空間における未知の介入から再構成できる条件を確立する。 第一の焦点は,線形性やガウス性といったパラメトリックな仮定を伴わない計測モデルにおける潜在構造同定である。 さらに,隠れ変数の数が分かっているとは仮定せず,隠れ変数毎に未知の介入が少なくとも1つ必要であることを示す。 これは、観察と介入から因果表現を学ぶ最近の作業のラインを拡張します。 証明は構成的で、想像上のサブセットと孤立したエッジという2つの新しいグラフィカルな概念を導入している。 独立した関心事として、証明は未知の介入によって誘導されるDAGの同値類におけるエッジ配向の限界の新たな特徴も含む。 これらは、未知の介入を伴う一般的な条件においてパラメトリックな仮定を行わずに、因果表現が識別可能である条件を特徴づける最初の結果である。

We establish conditions under which latent causal graphs are nonparametrically identifiable and can be reconstructed from unknown interventions in the latent space. Our primary focus is the identification of the latent structure in measurement models without parametric assumptions such as linearity or Gaussianity. Moreover, we do not assume the number of hidden variables is known, and we show that at most one unknown intervention per hidden variable is needed. This extends a recent line of work on learning causal representations from observations and interventions. The proofs are constructive and introduce two new graphical concepts -- imaginary subsets and isolated edges -- that may be useful in their own right. As a matter of independent interest, the proofs also involve a novel characterization of the limits of edge orientations within the equivalence class of DAGs induced by unknown interventions. These are the first results to characterize the conditions under which causal representations are identifiable without making any parametric assumptions in a general setting with unknown interventions and without faithfulness.
翻訳日:2023-11-06 17:38:56 公開日:2023-11-03
# variPEPS -- 2次元の変動基底状態シミュレーションのための多機能テンソルネットワークライブラリ

variPEPS -- a versatile tensor network library for variational ground state simulations in two spatial dimensions ( http://arxiv.org/abs/2308.12358v2 )

ライセンス: Link先を確認
Jan Naumann, Erik Lennart Weerda, Matteo Rizzi, Jens Eisert and Philipp Schmoll(参考訳) テンソルネットワークは、量子物質の位相の基底状態の大きなクラスを忠実かつ効率的に捉える。 しかし、その操作と収縮は長年にわたって挑戦されてきた。 歴史のほとんどにおいて、(有限)射影された絡み合ったペア状態を用いた二次元量子格子系の基底状態シミュレーションは、時間進化ブロックデミテーションと呼ばれるものに依存している。 近年、量子状態の変分最適化に関する複数の提案がなされ、従来知られていた方法の精度と収束問題を克服している。 テンソルネットワークアルゴリズムにおける自動微分の導入は、最終的に基底状態と励起状態の変動シミュレーションの新しい柔軟な方法を可能にした。 本稿では,変動ipepsフレームワークの現状について概観する。 我々は,iPEPSを用いた無限二次元システムのシミュレーションのための,効率的で包括的で汎用的なテンソルネットワークライブラリの機能を,柔軟性のある単位セルと異なる格子ジオメトリをサポートして提示する。

Tensor networks capture large classes of ground states of phases of quantum matter faithfully and efficiently. Their manipulation and contraction has remained a challenge over the years, however. For most of the history, ground state simulations of two-dimensional quantum lattice systems using (infinite) projected entangled pair states have relied on what is called a time-evolving block decimation. In recent years, multiple proposals for the variational optimization of the quantum state have been put forward, overcoming accuracy and convergence problems of previously known methods. The incorporation of automatic differentiation in tensor networks algorithms has ultimately enabled a new, flexible way for variational simulation of ground states and excited states. In this work, we review the state of the art of the variational iPEPS framework. We present and explain the functioning of an efficient, comprehensive and general tensor network library for the simulation of infinite two-dimensional systems using iPEPS, with support for flexible unit cells and different lattice geometries.
翻訳日:2023-11-06 17:31:07 公開日:2023-11-03
# 地対2.5次元地図マッチングによる画像に基づく局所化

Image-based Geolocalization by Ground-to-2.5D Map Matching ( http://arxiv.org/abs/2308.05993v2 )

ライセンス: Link先を確認
Mengjie Zhou, Liu Liu, Yiran Zhong, Andrew Calway(参考訳) 地図上でのグラウンドビュークエリー画像のローカライズを目的として,画像に基づくジオローカライズ問題について検討する。 現在の手法では、しばしば2次元マップと接地ビュークエリー画像のマッチングにクロスビューローカライズ手法を用いる。 しかし,これらの手法の性能は,外観の相違により不満足である。 本稿では,木や建物などの構造物の高さが幾何的情報を提供して,クロスビューマッチングを2.5次元空間に引き上げる手法を提案する。 マルチモーダルデータから代表埋め込みを学習するための新しい手法を提案する。 具体的には,2.5次元空間と2次元空中視点空間の投影関係を確立する。 このプロジェクションは、有効画素対点融合法を用いて2.5Dマップと2Dマップのマルチモーダル特徴を組み合わせるためにさらに使用される。 重要な幾何学的手がかりを符号化することにより,パノラマ画像と地図をマッチングするための識別的位置埋め込みを学習する。 さらに,本手法を検証し,今後の研究を促進するために,最初の大規模地対2.5dマップジオローカライズデータセットを構築した。 本手法をテストするため,シングルイメージとルートベースの両方のローカライゼーション実験を行った。 広範な実験により,提案手法は従来の2次元マップベースアプローチよりも精度が高く,収束速度が速いことがわかった。

We study the image-based geolocalization problem, aiming to localize ground-view query images on cartographic maps. Current methods often utilize cross-view localization techniques to match ground-view query images with 2D maps. However, the performance of these methods is unsatisfactory due to significant cross-view appearance differences. In this paper, we lift cross-view matching to a 2.5D space, where heights of structures (e.g., trees and buildings) provide geometric information to guide the cross-view matching. We propose a new approach to learning representative embeddings from multi-modal data. Specifically, we establish a projection relationship between 2.5D space and 2D aerial-view space. The projection is further used to combine multi-modal features from the 2.5D and 2D maps using an effective pixel-to-point fusion method. By encoding crucial geometric cues, our method learns discriminative location embeddings for matching panoramic images and maps. Additionally, we construct the first large-scale ground-to-2.5D map geolocalization dataset to validate our method and facilitate future research. Both single-image based and route based localization experiments are conducted to test our method. Extensive experiments demonstrate that the proposed method achieves significantly higher localization accuracy and faster convergence than previous 2D map-based approaches.
翻訳日:2023-11-06 17:30:52 公開日:2023-11-03
# GTFSのChatGPT: GTFSの理解と検索に関するLLMのベンチマーク

ChatGPT for GTFS: Benchmarking LLMs on GTFS Understanding and Retrieval ( http://arxiv.org/abs/2308.02618v2 )

ライセンス: Link先を確認
Saipraneeth Devunuri, Shirin Qiam, Lewis Lehe(参考訳) トランジットデータを公開するためのgeneral transit feed specification(gtfs)標準はユビキタスである。 GTFSは表形式のデータであり、異なるファイルにまたがる情報を提供するため、情報を取得するには特別なツールやパッケージが必要である。 同時に,テキストや情報検索におけるLarge Language Models(LLMs)の利用が増加している。 本研究の目的は,現在広く採用されているLLM(ChatGPT)が,自然言語命令を用いてGTFSから情報を取り出すことができるかどうかを,情報提供なしで確認することである。 本研究では,ChatGPTのバックボーンである OpenAI の GPT-3.5-Turbo と GPT-4 LLM のベンチマークを行った。 ChatGPTは、59.7%(GPT-3.5-Turbo)と73.3%(GPT-4)のマルチチョイス質問(MCQ)を正しく答えることで、GTFSを合理的に理解している。 さらに,4経路を含むフィルタGTFSフィードを用いて,情報抽出タスクのLLMを評価した。 その結果,GPT-4 (GPT-3.5-Turbo) を用いた複雑なクエリでは,93% (90%) の精度,61% (41%) の精度を実現した。

The General Transit Feed Specification (GTFS) standard for publishing transit data is ubiquitous. GTFS being tabular data, with information spread across different files, necessitates specialized tools or packages to retrieve information. Concurrently, the use of Large Language Models(LLMs) for text and information retrieval is growing. The idea of this research is to see if the current widely adopted LLMs (ChatGPT) are able to understand GTFS and retrieve information from GTFS using natural language instructions without explicitly providing information. In this research, we benchmark OpenAI's GPT-3.5-Turbo and GPT-4 LLMs which are the backbone of ChatGPT. ChatGPT demonstrates a reasonable understanding of GTFS by answering 59.7% (GPT-3.5-Turbo) and 73.3% (GPT-4) of our multiple-choice questions (MCQ) correctly. Furthermore, we evaluated the LLMs on information extraction tasks using a filtered GTFS feed containing four routes. We found that program synthesis techniques outperformed zero-shot approaches, achieving up to 93% (90%) accuracy for simple queries and 61% (41%) for complex ones using GPT-4 (GPT-3.5-Turbo).
翻訳日:2023-11-06 17:30:30 公開日:2023-11-03
# 複数の保護属性による公平性の改善: どこまであるのか?

Fairness Improvement with Multiple Protected Attributes: How Far Are We? ( http://arxiv.org/abs/2308.01923v2 )

ライセンス: Link先を確認
Zhenpeng Chen and Jie M. Zhang and Federica Sarro and Mark Harman(参考訳) 既存の研究は、一度に1つの保護属性に関する機械学習(ML)ソフトウェアの公平性を大幅に改善していますが、多くのユーザが複数の保護属性を持っているため、これは現実的ではありません。 本稿では,複数の保護属性に関する公平性改善に関する広範な研究を行い,11の公正性改善手法について述べる。 複数の保護属性を考慮した場合、これらの手法の有効性を異なるデータセット、メトリクス、MLモデルで分析する。 その結果、単一の保護属性の公平性を改善することは、未検討の保護属性に対する公平性を大幅に低下させることが判明した。 この減少は88.3%のシナリオで観察される(平均57.5%)。 より驚くべきことに、単一属性と複数の保護属性を考えると、精度損失の差はほとんど見られず、多重属性パラダイムでは精度が維持できることを示している。 しかし、複数の保護属性を扱う場合の精度とリコールへの影響は、1つの属性の約5倍と8倍である。 これは将来の公正性研究に重要な意味を持ち、現在文献で一般的なMLパフォーマンス指標としてのみ正確さを報告することは不十分である。

Existing research mostly improves the fairness of Machine Learning (ML) software regarding a single protected attribute at a time, but this is unrealistic given that many users have multiple protected attributes. This paper conducts an extensive study of fairness improvement regarding multiple protected attributes, covering 11 state-of-the-art fairness improvement methods. We analyze the effectiveness of these methods with different datasets, metrics, and ML models when considering multiple protected attributes. The results reveal that improving fairness for a single protected attribute can largely decrease fairness regarding unconsidered protected attributes. This decrease is observed in up to 88.3% of scenarios (57.5% on average). More surprisingly, we find little difference in accuracy loss when considering single and multiple protected attributes, indicating that accuracy can be maintained in the multiple-attribute paradigm. However, the effect on precision and recall when handling multiple protected attributes is about 5 times and 8 times that of a single attribute. This has important implications for future fairness research: reporting only accuracy as the ML performance metric, which is currently common in the literature, is inadequate.
翻訳日:2023-11-06 17:30:05 公開日:2023-11-03
# 大規模展開データセットによる水中グライダーの一般異常検出

General Anomaly Detection of Underwater Gliders Validated by Large-scale Deployment Datasets ( http://arxiv.org/abs/2308.00180v3 )

ライセンス: Link先を確認
Ruochu Yang, Chad Lembke, Fumin Zhang, and Catherine Edwards(参考訳) 水中グライダーは海洋学で様々な用途に広く用いられている。 しかし、シャークストライクやリモーラアタッチメントのような予測不可能な出来事は、異常なグライダーの挙動や楽器の喪失につながる可能性がある。 本稿では,実世界の海洋環境における水中グライダーの運用状況を評価する異常検出アルゴリズムを提案する。 プロンプト警告は、グライダーパイロットが異常を検知する際、飛行士に提供され、グライダーを制御でき、さらなる危害を防ぐことができる。 この検出アルゴリズムは、ジョージア大学スキダウェイ海洋学研究所(SkIO)と南フロリダ大学(USF)が主導する実際のグライダー配置で収集した複数のデータセットに適用される。 アルゴリズムの汎用性を示すために,4つのgliderデプロイメントデータセットに対して実験的な評価を行い,それぞれが異なるシーンで発生するさまざまな異常を強調する。 具体的には,高分解能データセットのみを用いて異常の詳細な解析を行い,パイロットログと比較する。 さらに,対象イベントのグライダーから送信されるデータのリアルタイムサブセットに基づいて,オンライン検出をシミュレートする。 リアルタイムデータには、回収後のデータほど豊富な情報が含まれていないかもしれないが、グライダーパイロットがリアルタイムに潜在的な異常状態を監視することができるため、オンライン検出は極めて重要である。

Underwater gliders have been widely used in oceanography for a range of applications. However, unpredictable events like shark strikes or remora attachments can lead to abnormal glider behavior or even loss of the instrument. This paper employs an anomaly detection algorithm to assess operational conditions of underwater gliders in the real-world ocean environment. Prompt alerts are provided to glider pilots upon detecting any anomaly, so that they can take control of the glider to prevent further harm. The detection algorithm is applied to multiple datasets collected in real glider deployments led by the University of Georgia's Skidaway Institute of Oceanography (SkIO) and the University of South Florida (USF). In order to demonstrate the algorithm generality, the experimental evaluation is applied to four glider deployment datasets, each highlighting various anomalies happening in different scenes. Specifically, we utilize high resolution datasets only available post-recovery to perform detailed analysis of the anomaly and compare it with pilot logs. Additionally, we simulate the online detection based on the real-time subsets of data transmitted from the glider at the surfacing events. While the real-time data may not contain as much rich information as the post-recovery one, the online detection is of great importance as it allows glider pilots to monitor potential abnormal conditions in real time.
翻訳日:2023-11-06 17:29:46 公開日:2023-11-03
# 汎用人工知能システム(gpais):特性、定義、分類、社会的意味、責任あるガバナンス

General Purpose Artificial Intelligence Systems (GPAIS): Properties, Definition, Taxonomy, Societal Implications and Responsible Governance ( http://arxiv.org/abs/2307.14283v2 )

ライセンス: Link先を確認
Isaac Triguero, Daniel Molina, Javier Poyatos, Javier Del Ser, Francisco Herrera(参考訳) 人工知能(AI)のほとんどのアプリケーションは、限定的で特定のタスクのために設計されている。 しかし、より一般的なaiを求める多くのシナリオがあり、それらのために特別に設計されることなく、幅広いタスクを解決できる。 汎用人工知能システム(General-Purpose Artificial Intelligence Systems, GPAIS)は、これらのAIシステムを指す用語である。 これまでのところ、人工知能の可能性は、人間であるかのように知的タスクを遂行できるほど強力であり、またそれを改善することさえ可能であり、願望、フィクションであり、我々の社会にとってリスクであると考えられてきた。 私たちはまだそれを達成するには程遠いかもしれないが、GPAISは現実であり、AI研究の最前線にいる。 本稿では,gpais の既存定義について論じ,その特性と限界に応じて gpai の種類を段階的に微分できる新たな定義を提案する。 クローズドワールドとオープンワールドのGPAISを区別し、新しいタスクへの適応、意図的に訓練されていないドメインにおける能力、少ないデータから学習する能力、あるいは自身の制限を積極的に認める能力など、いくつかの要因に基づいて、それらの自律性と能力の程度を特徴付ける。 我々は、GPAISを実現するためのアプローチの分類法を提案し、AI技術を用いた別のAI(AI駆動AI)や(単一)基礎モデルの改善などの研究動向について述べる。 主な例として、分類学で提示された概念と整合して、GenAIを掘り下げる。 多様なデータソースを融合させてGPAISの能力を拡張するマルチモダリティについて検討する。 提案した定義と分類学を通じて,多くの共通点を共有し,汎用的な課題に対処するさまざまな分野の研究協力を促進することを目的とする。 最後に,GPAISの現状,今後の展望,社会的意味,規制とガバナンスの必要性について論じる。

Most applications of Artificial Intelligence (AI) are designed for a confined and specific task. However, there are many scenarios that call for a more general AI, capable of solving a wide array of tasks without being specifically designed for them. The term General-Purpose Artificial Intelligence Systems (GPAIS) has been defined to refer to these AI systems. To date, the possibility of an Artificial General Intelligence, powerful enough to perform any intellectual task as if it were human, or even improve it, has remained an aspiration, fiction, and considered a risk for our society. Whilst we might still be far from achieving that, GPAIS is a reality and sitting at the forefront of AI research. This work discusses existing definitions for GPAIS and proposes a new definition that allows for a gradual differentiation among types of GPAIS according to their properties and limitations. We distinguish between closed-world and open-world GPAIS, characterising their degree of autonomy and ability based on several factors such as adaptation to new tasks, competence in domains not intentionally trained for, ability to learn from few data, or proactive acknowledgment of their own limitations. We propose a taxonomy of approaches to realise GPAIS, describing research trends such as the use of AI techniques to improve another AI (AI-powered AI) or (single) foundation models. As a prime example, we delve into GenAI, aligning them with the concepts presented in the taxonomy. We explore multi-modality, which involves fusing various types of data sources to expand the capabilities of GPAIS. Through the proposed definition and taxonomy, our aim is to facilitate research collaboration across different areas that are tackling general purpose tasks, as they share many common aspects. Finally, we discuss the state of GPAIS, prospects, societal implications, and the need for regulation and governance.
翻訳日:2023-11-06 17:29:24 公開日:2023-11-03
# in situモデルフリー最適化による高性能実世界光コンピューティング

High-performance real-world optical computing trained by in situ model-free optimization ( http://arxiv.org/abs/2307.11957v3 )

ライセンス: Link先を確認
Guangyuan Zhao, and Xin Shu(参考訳) 光コンピューティングシステムは、高速で低エネルギーなデータ処理を提供するが、計算的に要求されるトレーニングとシミュレーションと現実のギャップの欠如に直面している。 スコア勾配推定アルゴリズムに基づく光学計算機システムの軽量その場最適化のためのモデルフリーソリューションを提案する。 このアプローチは、システムをブラックボックスとして扱い、光学重みの確率分布に直接損失を逆伝播させ、計算重みとバイアス付きシステムのシミュレーションの必要性を回避する。 我々は,MNISTとFMNISTのデータセットに対して,単層回折光学計算システムの実験を通じて,より優れた分類精度を示す。 さらに,画像のない高速セル解析の可能性を示した。 提案手法の本質的な単純さは,計算資源の低需要と相まって,実験室から実世界の応用への光コンピューティングの移行を早める。

Optical computing systems can provide high-speed and low-energy data processing but face deficiencies in computationally demanding training and simulation-to-reality gap. We propose a model-free solution for lightweight in situ optimization of optical computing systems based on the score gradient estimation algorithm. This approach treats the system as a black box and back-propagates loss directly to the optical weights' probabilistic distributions, hence circumventing the need for computation-heavy and biased system simulation. We demonstrate a superior classification accuracy on the MNIST and FMNIST datasets through experiments on a single-layer diffractive optical computing system. Furthermore, we show its potential for image-free and high-speed cell analysis. The inherent simplicity of our proposed method, combined with its low demand for computational resources, expedites the transition of optical computing from laboratory demonstrations to real-world applications.
翻訳日:2023-11-06 17:28:52 公開日:2023-11-03
# 捕捉イオン試験場における誤差緩和・最適化・補間

Error mitigation, optimization, and extrapolation on a trapped ion testbed ( http://arxiv.org/abs/2307.07027v2 )

ライセンス: Link先を確認
Oliver G. Maupin, Ashlyn D. Burch, Christopher G. Yale, Brandon Ruzic, Antonio Russo, Daniel S. Lobser, Melissa C. Revelle, Matthew N. Chow, Susan M. Clark, Andrew J. Landahl, Peter J. Love(参考訳) 現在のノイズの多い中間スケール量子(NISQ)トラップイオンデバイスは、未確認の場合には計算の精度に大きな影響を及ぼすエラーを受ける。 ゼロノイズ補間(ZNE)と呼ばれる誤差軽減の形式は、必要なキュービット数を増やすことなく、これらのエラーに対するアルゴリズムの感度を低下させることができる。 本稿では, この誤差緩和手法を変分量子固有解法 (VQE) アルゴリズムに統合し, 現実雑音下での0.8アングストロームにおけるHeH+分子の基底状態を計算する方法について検討する。 量子科学計算オープンユーザテストベッド(QSCOUT)トラップイオンデバイスを用いて、2ビットゲートの時間伸長、サイドバンドパラメータのスケーリング、および2ビットゲートの同一性操作をアンザッツ回路に挿入する3つの方法をテストする。 時間ストレッチとサイドバンド振幅のスケーリングは、特定のハードウェア上のノイズをゼロノイズに直接外挿できる方法でスケールできない。 変分最適化後のグローバルゲートID挿入と外挿によるノイズのスケーリングにより, 化学的精度は低いが, 誤差0.127+-0.008 Hartreeの非エラー緩和推定よりも大幅に改善した。 その結果,この誤り軽減手法の有効性は,デバイスアーキテクチャの正しい実装を選択することに依存することがわかった。

Current noisy intermediate-scale quantum (NISQ) trapped-ion devices are subject to errors which can significantly impact the accuracy of calculations if left unchecked. A form of error mitigation called zero noise extrapolation (ZNE) can decrease an algorithm's sensitivity to these errors without increasing the number of required qubits. Here, we explore different methods for integrating this error mitigation technique into the Variational Quantum Eigensolver (VQE) algorithm for calculating the ground state of the HeH+ molecule at 0.8 Angstrom in the presence of realistic noise. Using the Quantum Scientific Computing Open User Testbed (QSCOUT) trapped-ion device, we test three methods of scaling noise for extrapolation: time-stretching the two-qubit gates, scaling the sideband amplitude parameter, and inserting two-qubit gate identity operations into the ansatz circuit. We find time-stretching and sideband amplitude scaling fail to scale the noise on our particular hardware in a way that can be directly extrapolated to zero noise. Scaling our noise with global gate identity insertions and extrapolating after variational optimization, we achieve an estimate of the ground state energy within -0.004 +- 0.04 Hartree; outside chemical accuracy, but greatly improved over our non-error-mitigated estimate with error 0.127 +- 0.008 Hartree. Our results show that the efficacy of this error mitigation technique depends on choosing the correct implementation for a given device architecture.
翻訳日:2023-11-06 17:27:49 公開日:2023-11-03
# コヒーレント光学系におけるニューラルネットワーク等化器の一般化性を高めるマルチタスク学習

Multi-Task Learning to Enhance Generalizability of Neural Network Equalizers in Coherent Optical Systems ( http://arxiv.org/abs/2307.05374v3 )

ライセンス: Link先を確認
Sasipim Srivallapanondh, Pedro J. Freire, Ashraful Alam, Nelson Costa, Bernhard Spinnler, Antonio Napoli, Egor Sedov, Sergei K. Turitsyn, Jaroslaw E. Prilepsky(参考訳) コヒーレントシステムにおけるnnベースのイコライザの柔軟性を改善するため,マルチタスク学習が初めて提案されている。 NNベースの「単一」等化器は、打ち上げ電力、シンボルレート、送信距離の変動があっても再訓練することなく、CDCと比較して最大4dBのQ因子を改善する。

For the first time, multi-task learning is proposed to improve the flexibility of NN-based equalizers in coherent systems. A "single" NN-based equalizer improves Q-factor by up to 4 dB compared to CDC, without re-training, even with variations in launch power, symbol rate, or transmission distance.
翻訳日:2023-11-06 17:27:22 公開日:2023-11-03
# 超ハイゼンベルク精密な長距離相互作用スターク多体プローブ

Long-range interacting Stark many-body probes with Super-Heisenberg precision ( http://arxiv.org/abs/2307.03904v2 )

ライセンス: Link先を確認
Rozhin Yousefjani, Xingjian He, and Abolfazl Bayat(参考訳) 粒子間相互作用が有害であるインターフェロメトリベースの量子センシングとは対照的に、量子多体プローブはそのような相互作用を利用して量子増強感度を達成する。 研究された多くの量子多体プローブでは、相互作用は短距離であると考えられている。 本稿では,様々な充填因子における長距離相互作用がStark量子プローブの性能に及ぼす影響について検討する。 これらのプローブは、システムサイズが増加するにつれて無限小勾配場で起こる基底状態スターク局在化相転移を利用する。 その結果、超ハイゼンベルク精度は常に全ての相互作用範囲において達成可能であるが、長距離相互作用スタークプローブは2つの異なる挙動を明らかにした。 第一に、相互作用の範囲を代数的に増加させることで、局所化のパワーは増大し、プローブの感度は低下する。 第2に、相互作用範囲が完全連結グラフに近づくと、効果的な局在化力が消失し、プローブの感度が再び向上し始める。 超ハイゼンベルク精度は、遷移点まで延長段階を通して達成可能であり、資源分析に状態準備時間が組み込まれても有効である。 プローブが局在した位相に入ると感度が低下し、その性能は普遍的な振る舞いに従ってサイズ非依存になる。 さらに, 解析の結果, 充填率の低下が弱勾配場の測定精度の向上につながることが示された。

In contrast to interferometry-based quantum sensing, where interparticle interaction is detrimental, quantum many-body probes exploit such interactions to achieve quantum-enhanced sensitivity. In most of the studied quantum many-body probes, the interaction is considered to be short-ranged. Here, we investigate the impact of long-range interaction at various filling factors on the performance of Stark quantum probes for measuring a small gradient field. These probes harness the ground state Stark localization phase transition which happens at an infinitesimal gradient field as the system size increases. Our results show that while super-Heisenberg precision is always achievable in all ranges of interaction, the long-range interacting Stark probe reveals two distinct behaviors. First, by algebraically increasing the range of interaction, the localization power enhances and thus the sensitivity of the probe decreases. Second, as the interaction range becomes close to a fully connected graph its effective localization power disappears and thus the sensitivity of the probe starts to enhance again. The super-Heisenberg precision is achievable throughout the extended phase until the transition point and remains valid even when the state preparation time is incorporated in the resource analysis. As the probe enters the localized phase, the sensitivity decreases and its performance becomes size-independent, following a universal behavior. In addition, our analysis shows that lower filling factors lead to better precision for measuring weak gradient fields.
翻訳日:2023-11-06 17:27:14 公開日:2023-11-03
# トランスフォーマーはいつRLで輝くのか? クレジット割り当てからメモリを分離する

When Do Transformers Shine in RL? Decoupling Memory from Credit Assignment ( http://arxiv.org/abs/2307.03864v4 )

ライセンス: Link先を確認
Tianwei Ni, Michel Ma, Benjamin Eysenbach, Pierre-Luc Bacon(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、過去と現在の観察の効果的な表現を学習し、アクションが将来のリターンにどのように影響するかを決定する。 どちらの課題も長期的な依存関係のモデリングを伴う。 Transformerアーキテクチャは、RLドメインを含む長期的な依存関係に関わる問題を解決するのに非常に成功した。 しかし、トランスフォーマーベースのrlメソッドの強力なパフォーマンスの根本的な理由は、まだ不明である。 メモリ長とクレジット割り当て長の形式的定義を導入した後、これらの異なる量を測定するための簡単な構成可能なタスクを設計する。 実験の結果、トランスフォーマーはrlアルゴリズムのメモリ能力を向上し、記憶に残る観察を必要とするタスクまでスケールアップできることがわかった。 しかし、トランスフォーマーは長期クレジット割り当てを改善しない。 まとめると、この結果はRLにおけるトランスフォーマーの成功を説明するとともに、将来の研究とベンチマーク設計における重要な領域を強調している。 私たちのコードはhttps://github.com/twni2016/memory-rlでオープンソースです。

Reinforcement learning (RL) algorithms face two distinct challenges: learning effective representations of past and present observations, and determining how actions influence future returns. Both challenges involve modeling long-term dependencies. The Transformer architecture has been very successful to solve problems that involve long-term dependencies, including in the RL domain. However, the underlying reason for the strong performance of Transformer-based RL methods remains unclear: is it because they learn effective memory, or because they perform effective credit assignment? After introducing formal definitions of memory length and credit assignment length, we design simple configurable tasks to measure these distinct quantities. Our empirical results reveal that Transformers can enhance the memory capability of RL algorithms, scaling up to tasks that require memorizing observations $1500$ steps ago. However, Transformers do not improve long-term credit assignment. In summary, our results provide an explanation for the success of Transformers in RL, while also highlighting an important area for future research and benchmark design. Our code is open-sourced at https://github.com/twni2016/Memory-RL
翻訳日:2023-11-06 17:26:52 公開日:2023-11-03
# ワーナー状態の新規部分微量不等式と蒸留性

New Partial Trace Inequalities and Distillability of Werner States ( http://arxiv.org/abs/2310.05726v2 )

ライセンス: Link先を確認
Pablo Costa Rico(参考訳) 我々は、ヴェルナー状態のn$-蒸留可能性の新しいキャラクタリゼーションを示し、それらのいくつかを2-蒸留可能性に応じて分類する。 この結果は、系の次元と行列の階数に束縛された部分的トレースに関して新たな不等式をもたらす。 For an $n$-partite system we prove that there are $2^n-1$ partial trace inequalities using the dimension of the systems, and for the bounds with respect to the rank, for the case $n=2$ we prove $$\Vert tr_1 C \Vert_2^2+ \Vert tr_2 C \Vert_2^2\leq r \Vert C \Vert_2^2+\frac{1}{r}\vert tr C \vert^2$$ for matrices, which can be written as a rank 1 plus a normal matrix, and $$\left\vert \Vert tr_1 C \Vert_2^2- \Vert tr_2 C \Vert_2^2 \right\vert \leq r \Vert C \Vert_2^2-\frac{1}{r}\vert tr C \vert^2 $$ for any matrix. ここでは、二成分系における他の多くの不等式に対する証明も提示し、三成分系に対しては正行列に対するいくつかの結果を得る。 最後に、この結果がノルムや指数など、より多くのパラメータに依存する不等式族に一般化可能であることを示す数値的な結果を示す。

We present a new characterization for the $n$-distillability of Werner states and classify some of them according to their 2-distillability. This result brings out new inequalities with respect to partial traces with bound on the dimension of the system and also the rank of the matrix. For an $n$-partite system we prove that there are $2^n-1$ partial trace inequalities using the dimension of the systems, and for the bounds with respect to the rank, for the case $n=2$ we prove $$\Vert tr_1 C \Vert_2^2+ \Vert tr_2 C \Vert_2^2\leq r \Vert C \Vert_2^2+\frac{1}{r}\vert tr C \vert^2$$ for matrices, which can be written as a rank 1 plus a normal matrix, and $$\left\vert \Vert tr_1 C \Vert_2^2- \Vert tr_2 C \Vert_2^2 \right\vert \leq r \Vert C \Vert_2^2-\frac{1}{r}\vert tr C \vert^2 $$ for any matrix. Here we also present the proofs for many other inequalities in bipartite systems, and for tripartite systems we also obtain some results for positive matrices. Finally, we show numerical results indicating that this results could also be generalized to more families of inequalities depending on more parameters, such as the norm or exponents.
翻訳日:2023-11-06 17:19:47 公開日:2023-11-03
# 縦型NMR緩和におけるマジックアングルスピン効果:L-ヒスチジンの15N

Magic Angle Spinning Effects on Longitudinal NMR Relaxation: 15N in L-Histidine ( http://arxiv.org/abs/2310.03029v3 )

ライセンス: Link先を確認
Armin Afrough, Nichlas Vous Christensen, Rune Wittendorff M{\o}nster Jensen, Dennis Wilkens Juhl, and Thomas Vosegaard(参考訳) 固体磁気共鳴は、原子分解能を持つ複雑な生物学的システムの力学を明らかにするユニークな技術である。 縦方向緩和は、非コヒーレントなプロセスによって、縦方向の核磁化を熱平衡に戻すメカニズムである。 しかし、測定された経時緩和速度定数は、核磁化の変化に対する不整合とコヒーレントの両方の寄与の組合せを表す。 本研究は,l-histidine hydrochloride一水和物およびグリシンがイソトープに富む生体材料のプロキシーとして働く2種類のモデル化合物の縦緩和速度定数に及ぼすマジックアングル回転速度の影響を示す。 特に、ヒスチジンのイミダゾール環における2つの窒素核の長手15N緩和は、アミンとの回転共鳴条件下でほぼ3桁程度減少し、これらの条件下ではアミン緩和速度定数が増加することが示されている。 観察された現象は、生体物理学や材料における固体磁気共鳴、特に力学の適切な測定、および動的核分極における選択的シリアル転送ステップに急進的な意味を持つ可能性がある。

Solid-state magnetic resonance is a unique technique that can reveal the dynamics of complex biological systems with atomic resolution. Longitudinal relaxation is a mechanism that returns longitudinal nuclear magnetization to its thermal equilibrium by incoherent processes. The measured longitudinal relaxation rate constant however represents the combination of both incoherent and coherent contributions to the change of nuclear magnetization. This work demonstrates the effect of magic angle spinning rate on the longitudinal relaxation rate constant in two model compounds: L-histidine hydrochloride monohydrate and glycine serving as proxies for isotopically-enriched biological materials. Most notably, it is demonstrated that the longitudinal 15N relaxation of the two nitrogen nuclei in the imidazole ring in histidine is reduced by almost three orders of magnitude at the condition of rotational resonance with the amine, while the amine relaxation rate constant is increased at these conditions. The observed phenomenon may have radical implications for the solid-state magnetic resonance in biophysics and materials, especially in the proper measurement of dynamics and as a selective serial transfer step in dynamic nuclear polarization.
翻訳日:2023-11-06 17:19:21 公開日:2023-11-03
# GRANDE: 勾配ベースの決定木アンサンブル

GRANDE: Gradient-Based Decision Tree Ensembles ( http://arxiv.org/abs/2309.17130v2 )

ライセンス: Link先を確認
Sascha Marton, Stefan L\"udtke, Christian Bartelt, Heiner Stuckenschmidt(参考訳) テキストや画像データに対するディープラーニングの成功にもかかわらず、ツリーベースのアンサンブルモデルは、不均一な表データを用いた機械学習の最先端である。 しかし,その柔軟性から,表特異的な勾配に基づく手法が必要となる。 本稿では,エンド・ツー・エンドの勾配降下を用いて,軸に整列した決定木を学習するための新しいアプローチである,$\text{grande}$,$\text{gra}$die$\text{n}$t-based$\text{d}$ecision tree $\text{e}$nsemblesを提案する。 GRANDEはツリーアンサンブルの密度の高い表現に基づいており、すべてのモデルパラメータを協調的に最適化するために、ストレートスルー演算子とバックプロパゲーションを使用することができる。 本手法は,表データに対して有用なインダクティブバイアスである軸方向分割と,勾配に基づく最適化の柔軟性を組み合わせたものである。 さらに、単一モデル内での単純かつ複雑な関係の学習表現を容易にする高度なインスタンスワイド重み付けを導入する。 19の分類データセットを用いた事前定義されたベンチマークを広範囲に評価し,提案手法が既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。 このメソッドは、https://github.com/s-marton/grandeで利用可能である。

Despite the success of deep learning for text and image data, tree-based ensemble models are still state-of-the-art for machine learning with heterogeneous tabular data. However, there is a significant need for tabular-specific gradient-based methods due to their high flexibility. In this paper, we propose $\text{GRANDE}$, $\text{GRA}$die$\text{N}$t-Based $\text{D}$ecision Tree $\text{E}$nsembles, a novel approach for learning hard, axis-aligned decision tree ensembles using end-to-end gradient descent. GRANDE is based on a dense representation of tree ensembles, which affords to use backpropagation with a straight-through operator to jointly optimize all model parameters. Our method combines axis-aligned splits, which is a useful inductive bias for tabular data, with the flexibility of gradient-based optimization. Furthermore, we introduce an advanced instance-wise weighting that facilitates learning representations for both, simple and complex relations, within a single model. We conducted an extensive evaluation on a predefined benchmark with 19 classification datasets and demonstrate that our method outperforms existing gradient-boosting and deep learning frameworks on most datasets. The method is available under: https://github.com/s-marton/GRANDE
翻訳日:2023-11-06 17:19:02 公開日:2023-11-03
# 自律運転における3次元複数物体追跡:文献レビュー

3D Multiple Object Tracking on Autonomous Driving: A Literature Review ( http://arxiv.org/abs/2309.15411v3 )

ライセンス: Link先を確認
Peng Zhang, Xin Li, Liang He, Xin Lin(参考訳) 3Dマルチオブジェクトトラッキング(3D MOT)は、自動運転において重要な領域であり、近年、学術的関心と商業的約束が急増している。 その最重要さにもかかわらず、3d motは、オブジェクトの出現、広範囲のオクルージョン、小さなターゲットの存在、データのスパーシティ、検出の欠如、そして予測不能なオブジェクトの動きの開始と終了など、無数の困難に直面している。 数え切れないほどの方法論がこれらの問題に対処し始めているが、3D MOTはさらなる探索を保証できる恐ろしい問題として耐えられる。 本稿では,この領域における研究景観の包括的考察,評価,総合的な分析を行い,今後の研究への道筋を示唆しながら,最近の3d motの発展に合わせる。 本研究は,3次元MOTとその関連領域のキーファセットの体系的な説明から始まり,問題記述,分類,方法論的アプローチ,基本原理,実証的研究を含む。 その後、これらの方法論を異なるグループに分類し、その課題、基礎となる理論的根拠、進歩、メリット、デメリットについて、各グループを慎重に分類する。 さらに,実験的なメトリクスの簡潔な再認識を行い,より直感的な評価のための定量的比較を容易にするために,一般的なデータセットの概要を提供する。 最後に,3次元MOT研究の課題と今後の方向性を整理し,本研究の主流となる研究状況について論じる。 この分野での今後の取り組みを導くために,構造化されたルーシッドな道路マップを提案する。

3D multi-object tracking (3D MOT) stands as a pivotal domain within autonomous driving, experiencing a surge in scholarly interest and commercial promise over recent years. Despite its paramount significance, 3D MOT confronts a myriad of formidable challenges, encompassing abrupt alterations in object appearances, pervasive occlusion, the presence of diminutive targets, data sparsity, missed detections, and the unpredictable initiation and termination of object motion trajectories. Countless methodologies have emerged to grapple with these issues, yet 3D MOT endures as a formidable problem that warrants further exploration. This paper undertakes a comprehensive examination, assessment, and synthesis of the research landscape in this domain, remaining attuned to the latest developments in 3D MOT while suggesting prospective avenues for future investigation. Our exploration commences with a systematic exposition of key facets of 3D MOT and its associated domains, including problem delineation, classification, methodological approaches, fundamental principles, and empirical investigations. Subsequently, we categorize these methodologies into distinct groups, dissecting each group meticulously with regard to its challenges, underlying rationale, progress, merits, and demerits. Furthermore, we present a concise recapitulation of experimental metrics and offer an overview of prevalent datasets, facilitating a quantitative comparison for a more intuitive assessment. Lastly, our deliberations culminate in a discussion of the prevailing research landscape, highlighting extant challenges and charting possible directions for 3D MOT research. We present a structured and lucid road-map to guide forthcoming endeavors in this field.
翻訳日:2023-11-06 17:18:34 公開日:2023-11-03
# 2次元幾何学における2つの原子の収束系における放射と角の相関

Radial and Angular Correlations in a Confined System of Two Atoms in a Two-Dimensional Geometry ( http://arxiv.org/abs/2309.14116v3 )

ライセンス: Link先を確認
Przemys{\l}aw Ko\'scik(参考訳) 2次元等方調和トラップにおける2つの原子間の基底状態相関について検討した。 種々の原子系のシミュレートに応用できる有限範囲ソフトコア相互作用を考える。 本稿では,システムのパラメータに対する相関の依存性に関する詳細な結果を示す。 本研究は, ハードコア限界において, 波動関数は, 相互作用範囲に関係なく半径成分と角成分の積として近似できることを示した。 これは、ラジアル相関と角相関が互いに独立であることを意味する。 しかし、半径成分と角成分の相関は持続し、相互作用範囲に大きく影響される。 半径相関は一般的に角相関よりも弱い。 ソフトコア相互作用を考えると、相関はより複雑な挙動を示す。

We study the ground-state correlations between two atoms in a two-dimensional isotropic harmonic trap. We consider a finite-range soft-core interaction that can be applied to simulate various atomic systems. We provide detailed results on the dependence of the correlations on the parameters of the system. Our investigations show that in the hardcore limit, the wave function can be approximated as the product of the radial and angular components regardless of the interaction range. This implies that the radial and angular correlations are independent of one another. However, correlations within the radial and angular components persist and are heavily influenced by the interaction range. The radial correlations are generally weaker than the angular correlations. When soft-core interactions are considered, the correlations exhibit more complex behavior.
翻訳日:2023-11-06 17:17:45 公開日:2023-11-03
# BoIR:マルチパーソン・ポーズ推定のためのBox-Supervised Instance Representation

BoIR: Box-Supervised Instance Representation for Multi-Person Pose Estimation ( http://arxiv.org/abs/2309.14072v2 )

ライセンス: Link先を確認
Uyoung Jeong, Seungryul Baek, Hyung Jin Chang, Kwang In Kim(参考訳) 単段階多対人ポーズ推定(MPPE)手法は,性能が向上したが,既存の手法では,混み合ったシーン下での個々のインスタンスによる特徴の絡み合わせに失敗した。 本稿では,BoIRと呼ばれる境界ボックスレベルのインスタンス表現学習を提案する。 新しいインスタンス埋め込み損失は、バウンディングボックスアノテーションでイメージ全体の学習シグナルを提供し、グローバルに一貫性があり、不整合なインスタンス表現を実現します。 提案手法は,ボトムアップキーポイント推定,境界ボックス回帰,コントラスト型インスタンス埋め込み学習のマルチタスク学習を,推論中に計算コストを増すことなく活用する。 BoIR は、COCO val (0.8 AP)、COCO test-dev (0.5 AP)、CrowdPose (4.9 AP)、OCHuman (3.5 AP) において、最先端のCOCO val (0.8 AP) よりも優れている。 コードはhttps://github.com/uyoung-jeong/BoIRで入手できる。

Single-stage multi-person human pose estimation (MPPE) methods have shown great performance improvements, but existing methods fail to disentangle features by individual instances under crowded scenes. In this paper, we propose a bounding box-level instance representation learning called BoIR, which simultaneously solves instance detection, instance disentanglement, and instance-keypoint association problems. Our new instance embedding loss provides a learning signal on the entire area of the image with bounding box annotations, achieving globally consistent and disentangled instance representation. Our method exploits multi-task learning of bottom-up keypoint estimation, bounding box regression, and contrastive instance embedding learning, without additional computational cost during inference. BoIR is effective for crowded scenes, outperforming state-of-the-art on COCO val (0.8 AP), COCO test-dev (0.5 AP), CrowdPose (4.9 AP), and OCHuman (3.5 AP). Code will be available at https://github.com/uyoung-jeong/BoIR
翻訳日:2023-11-06 17:17:37 公開日:2023-11-03
# MEDL-U: 証拠深層学習に基づく不確かさを意識した3次元自動アノテーション

MEDL-U: Uncertainty-aware 3D Automatic Annotation based on Evidential Deep Learning ( http://arxiv.org/abs/2309.09599v2 )

ライセンス: Link先を確認
Helbert Paat, Qing Lian, Weilong Yao, Tong Zhang(参考訳) ディープラーニングベースの3Dオブジェクト検出の進歩は、大規模なデータセットの可用性を必要とする。 しかし、この要件は手動アノテーションの課題を提起している。 この問題に対処するため、文献では、ラベルなしデータの擬似ラベルを自動的に生成できる3次元オブジェクト検出のための弱教師付きフレームワークがいくつか出現している。 それにもかかわらず、これらの生成された擬似ラベルはノイズを含み、人間のラベルほど正確ではない。 本稿では,Evidential Deep Learning(EDL)に基づく不確実性推定フレームワークを導入することにより,擬似ラベルに存在する固有曖昧性に対処する最初のアプローチを提案する。 具体的には,MTransに基づくEDLフレームワークであるMEDL-Uを提案する。 しかし,EDLを3次元物体検出に適用することは,(1)他のオートラボラに比べて比較的低い擬似ラベル品質,(2)過度に明らかな不確実性評価,(3)下流タスクにおける明確な解釈可能性の欠如,有効利用の3つの課題を生じさせる。 我々は,不確実性を考慮したiouベースの損失,エビデンス対応マルチタスク損失関数の導入,不確実性改善のための後処理ステージの実装を通じて,これらの課題に取り組む。 実験の結果,MEDL-Uの出力を用いてトレーニングした確率的検出器は,KITTI val の以前の3次元アノテータの出力を用いて訓練した決定論的検出器を超えていることがわかった。 さらに,MEDL-Uは,既存の3D自動アノテータと比較して,KITTIオフィシャルテストセットの最先端結果を達成している。

Advancements in deep learning-based 3D object detection necessitate the availability of large-scale datasets. However, this requirement introduces the challenge of manual annotation, which is often both burdensome and time-consuming. To tackle this issue, the literature has seen the emergence of several weakly supervised frameworks for 3D object detection which can automatically generate pseudo labels for unlabeled data. Nevertheless, these generated pseudo labels contain noise and are not as accurate as those labeled by humans. In this paper, we present the first approach that addresses the inherent ambiguities present in pseudo labels by introducing an Evidential Deep Learning (EDL) based uncertainty estimation framework. Specifically, we propose MEDL-U, an EDL framework based on MTrans, which not only generates pseudo labels but also quantifies the associated uncertainties. However, applying EDL to 3D object detection presents three primary challenges: (1) relatively lower pseudolabel quality in comparison to other autolabelers; (2) excessively high evidential uncertainty estimates; and (3) lack of clear interpretability and effective utilization of uncertainties for downstream tasks. We tackle these issues through the introduction of an uncertainty-aware IoU-based loss, an evidence-aware multi-task loss function, and the implementation of a post-processing stage for uncertainty refinement. Our experimental results demonstrate that probabilistic detectors trained using the outputs of MEDL-U surpass deterministic detectors trained using outputs from previous 3D annotators on the KITTI val set for all difficulty levels. Moreover, MEDL-U achieves state-of-the-art results on the KITTI official test set compared to existing 3D automatic annotators.
翻訳日:2023-11-06 17:17:15 公開日:2023-11-03
# データ駆動型気象予報モデルの限界について

On some limitations of data-driven weather forecasting models ( http://arxiv.org/abs/2309.08473v2 )

ライセンス: Link先を確認
Massimo Bonavita(参考訳) 工学や応用科学の他の多くの分野と同様に、機械学習(ML)は気象と気候予測の分野に大きな影響を与えている。 この領域における非常に最近の発展は、従来の物理モデルよりも優れた性能を常々主張する完全なデータ駆動ML予測モデルの出現である。 本研究では,現在のmlモデルであるpangu-weatherの例から得られた予測について,予測の忠実性と物理的一貫性に着目し,これらの特徴が予測性能に与える影響について検討する。 主な結論は、パングウェザー予測、および同様のmlモデルの予測は、物理ベースのモデルの忠実性と物理的一貫性を持たず、予測スキルの伝統的な決定論的指標における正確さの利点は、少なくとも部分的にこれらの特異性に起因する可能性があるということである。 予測スキルのバランスとML駆動予測の物理的整合性は、将来のMLモデルにとって重要な考慮事項である。 しかし、他の現代的な後処理技術と同様に、現在のMLモデルは、特定の予測アプリケーションに対して標準のNWP出力に既に価値を付加でき、デプロイ中に非常に低い計算コストと組み合わせることで、予測情報の付加的で有用な情報源を提供するように設定されている。 .

As in many other areas of engineering and applied science, Machine Learning (ML) is having a profound impact in the domain of Weather and Climate Prediction. A very recent development in this area has been the emergence of fully data-driven ML prediction models which routinely claim superior performance to that of traditional physics-based models. In this work, we examine some aspects of the forecasts produced by an exemplar of the current generation of ML models, Pangu-Weather, with a focus on the fidelity and physical consistency of those forecasts and how these characteristics relate to perceived forecast performance. The main conclusion is that Pangu-Weather forecasts, and possibly those of similar ML models, do not have the fidelity and physical consistency of physics-based models and their advantage in accuracy on traditional deterministic metrics of forecast skill can be at least partly attributed to these peculiarities. Balancing forecast skill and physical consistency of ML-driven predictions will be an important consideration for future ML models. However, and similarly to other modern post-processing technologies, the current ML models appear to be already able to add value to standard NWP output for specific forecast applications and combined with their extremely low computational cost during deployment, are set to provide an additional, useful source of forecast information. .
翻訳日:2023-11-06 17:16:45 公開日:2023-11-03
# 製造品質管理のためのオートエンコーダによる視覚異常位置決め

Autoencoder-Based Visual Anomaly Localization for Manufacturing Quality Control ( http://arxiv.org/abs/2309.06884v2 )

ライセンス: Link先を確認
Devang Mehta and Noah Klarmann(参考訳) 製造業は高品質の完成品を効率よく生産する必要がある。 産業4.0の文脈では、視覚異常検出は、高精度で自動制御された製品品質に対する楽観的な解決策をもたらす。 一般的に、コンピュータビジョンに基づく自動化は、製品の品質チェックポイントのボトルネックを防止するための有望なソリューションである。 視覚的欠陥の局所化を改善するために機械学習の最近の進歩を検討したが、生産ラインで発生する多種多様な欠陥のバランスのとれた特徴セットとデータベースを得る際の課題が続いている。 そこで本稿では,事前学習したVGG16ネットワークから抽出した特徴をk平均でクラスタリングすることで,教師なしクラス選択による欠陥ローカライズオートエンコーダを提案する。 さらに, 人工的な欠陥をシミュレートするために, 天然の野生のテクスチャを付加する。 本研究は, 製造産業における欠陥検出を改善するための教師なしクラス選択による欠陥局所化オートエンコーダの有効性を示す。 提案手法は,家具産業用メラミン板の品質欠陥を高精度かつ高精度に同定する有望な結果を示す。 トレーニングデータに人工的な欠陥を組み込むことは、実世界の品質管理シナリオにおける実用的な実装の可能性を示している。

Manufacturing industries require efficient and voluminous production of high-quality finished goods. In the context of Industry 4.0, visual anomaly detection poses an optimistic solution for automatically controlled product quality with high precision. In general, automation based on computer vision is a promising solution to prevent bottlenecks at the product quality checkpoint. We considered recent advancements in machine learning to improve visual defect localization, but challenges persist in obtaining a balanced feature set and database of the wide variety of defects occurring in the production line. Hence, this paper proposes a defect localizing autoencoder with unsupervised class selection by clustering with k-means the features extracted from a pre-trained VGG16 network. Moreover, the selected classes of defects are augmented with natural wild textures to simulate artificial defects. The study demonstrates the effectiveness of the defect localizing autoencoder with unsupervised class selection for improving defect detection in manufacturing industries. The proposed methodology shows promising results with precise and accurate localization of quality defects on melamine-faced boards for the furniture industry. Incorporating artificial defects into the training data shows significant potential for practical implementation in real-world quality control scenarios.
翻訳日:2023-11-06 17:15:58 公開日:2023-11-03
# 機械翻訳における行動テストの自動化

Automating Behavioral Testing in Machine Translation ( http://arxiv.org/abs/2309.02553v3 )

ライセンス: Link先を確認
Javier Ferrando, Matthias Sperber, Hendra Setiawan, Dominic Telaar, Sa\v{s}a Hasan(参考訳) NLPにおける振る舞いテストは、入出力動作の分析を通じて言語能力を調べることによって、システムのきめ細かい評価を可能にする。 残念ながら、機械翻訳(MT)における振る舞いテストに関する既存の作業は、現在、限られた機能と言語をカバーする手作りのテストに限られている。 この制限に対処するために,我々は,MTモデルの振る舞いを幅広い状況でテストするために,多種多様なソース文を生成するために,Large Language Models (LLMs) を提案する。 次に, MTモデルがLLMを用いて生成した候補集合をマッチングすることにより, 期待される挙動を示すか否かを検証する。 本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。 実験では,提案手法を用いて複数のMTシステムの評価を行い,従来の精度に基づく測定値から観測可能な傾向をパスレートで追従するが,精度のみに依存する場合,いくつかの重要な違いや潜在的なバグを明らかにすることができた。

Behavioral testing in NLP allows fine-grained evaluation of systems by examining their linguistic capabilities through the analysis of input-output behavior. Unfortunately, existing work on behavioral testing in Machine Translation (MT) is currently restricted to largely handcrafted tests covering a limited range of capabilities and languages. To address this limitation, we propose to use Large Language Models (LLMs) to generate a diverse set of source sentences tailored to test the behavior of MT models in a range of situations. We can then verify whether the MT model exhibits the expected behavior through matching candidate sets that are also generated using LLMs. Our approach aims to make behavioral testing of MT systems practical while requiring only minimal human effort. In our experiments, we apply our proposed evaluation framework to assess multiple available MT systems, revealing that while in general pass-rates follow the trends observable from traditional accuracy-based metrics, our method was able to uncover several important differences and potential bugs that go unnoticed when relying only on accuracy.
翻訳日:2023-11-06 17:15:18 公開日:2023-11-03
# BigFUSE:デュアルビュー光シート蛍光顕微鏡における画像形成前の地球環境対応画像融合

BigFUSE: Global Context-Aware Image Fusion in Dual-View Light-Sheet Fluorescence Microscopy with Image Formation Prior ( http://arxiv.org/abs/2309.01865v2 )

ライセンス: Link先を確認
Yu Liu, Gesine Muller, Nassir Navab, Carsten Marr, Jan Huisken, Tingying Peng(参考訳) 光シート蛍光顕微鏡(lsfm、light-sheet fluorescence microscope)は、試料の高分解能イメージングを可能にする平面照明技術で、光子が厚い組織を透過する際に光散乱によって生じる画質の低下を経験する。 この問題を回避するため、デュアルビューイメージングは有用である。 反対方向からサンプルを見ることで、標本の様々な部分を理想的にスキャンすることができる。 次に,最近の画像融合手法を適用し,局所的に2つのビューの画質を比較して焦点内画素を決定することで,視野の制限による空間的不整合度を計測する。 本稿では,局所的な画像品質に基づいて焦点差を判定しながら,試料中の光子伝播のグローバルな影響を考慮し,LSFMにおける画像融合を安定化する,大域的文脈認識画像フィルタBigFUSEを提案する。 デュアルビューLSFMに先立つ画像形成にインスパイアされた画像融合は、ベイズ理論を用いた焦点差境界の推定と見なされる。 (i)焦点測度に対する光散乱の影響は、その可能性に含まれている。 (ii)フォーカスデフォーカスに関する空間的一貫性を予め課す。 次に、期待最大アルゴリズムを用いてフォーカス・デフォーカス境界を推定する。 比較実験の結果,BigFUSEは情報融合時に構造化されたアーティファクトを排除できる最初のデュアルビューLSFMフィルタであり,自動画像融合の能力を強調している。

Light-sheet fluorescence microscopy (LSFM), a planar illumination technique that enables high-resolution imaging of samples, experiences defocused image quality caused by light scattering when photons propagate through thick tissues. To circumvent this issue, dualview imaging is helpful. It allows various sections of the specimen to be scanned ideally by viewing the sample from opposing orientations. Recent image fusion approaches can then be applied to determine in-focus pixels by comparing image qualities of two views locally and thus yield spatially inconsistent focus measures due to their limited field-of-view. Here, we propose BigFUSE, a global context-aware image fuser that stabilizes image fusion in LSFM by considering the global impact of photon propagation in the specimen while determining focus-defocus based on local image qualities. Inspired by the image formation prior in dual-view LSFM, image fusion is considered as estimating a focus-defocus boundary using Bayes Theorem, where (i) the effect of light scattering onto focus measures is included within Likelihood; and (ii) the spatial consistency regarding focus-defocus is imposed in Prior. The expectation-maximum algorithm is then adopted to estimate the focus-defocus boundary. Competitive experimental results show that BigFUSE is the first dual-view LSFM fuser that is able to exclude structured artifacts when fusing information, highlighting its abilities of automatic image fusion.
翻訳日:2023-11-06 17:14:59 公開日:2023-11-03
# 深部不均衡分類のためのSMOTEからMixupへ

From SMOTE to Mixup for Deep Imbalanced Classification ( http://arxiv.org/abs/2308.15457v2 )

ライセンス: Link先を確認
Wei-Chao Cheng, Tan-Ha Mai, Hsuan-Tien Lin(参考訳) 不均衡なデータを考えると、マイノリティクラスの一般化が不十分なため、ディープラーニングを用いた優れた分類器のトレーニングは困難である。 伝統的に、不均衡学習のためのデータマイニングアプローチであるデータ拡張のためのよく知られた合成マイノリティオーバーサンプリング技術(smote)が、この一般化を改善するために使われてきた。 しかし、SMOTEがディープラーニングにも役立つかどうかは不明である。 本研究では,従来のSMOTEが深層学習に不十分な理由を考察し,ソフトラベルを用いてSMOTEを強化する。 結果として生じるソフトなSMOTEと、現代的なデータ拡張テクニックであるMixupを結びつけることで、従来型と現代的なデータ拡張テクニックを同じ傘の下に配置する統合フレームワークが実現される。 この枠組みの注意深い研究は、Mixupが多数派と少数派の間の不均一なマージンを暗黙的に達成することによって、一般化を改善することを示している。 次に、不均一なマージンをより明確に達成する新しいマージン対応ミックスアップ手法を提案する。 実験結果から,本手法は極めて不均衡なデータに対して高い性能を保ちながら,深い不均衡な分類において最先端の性能が得られることを示した。 このコードは、我々の開発パッケージ https://github.com/ntucllab/imbalanced-DL でオープンソース化され、この方向の将来の研究を促進する。

Given imbalanced data, it is hard to train a good classifier using deep learning because of the poor generalization of minority classes. Traditionally, the well-known synthetic minority oversampling technique (SMOTE) for data augmentation, a data mining approach for imbalanced learning, has been used to improve this generalization. However, it is unclear whether SMOTE also benefits deep learning. In this work, we study why the original SMOTE is insufficient for deep learning, and enhance SMOTE using soft labels. Connecting the resulting soft SMOTE with Mixup, a modern data augmentation technique, leads to a unified framework that puts traditional and modern data augmentation techniques under the same umbrella. A careful study within this framework shows that Mixup improves generalization by implicitly achieving uneven margins between majority and minority classes. We then propose a novel margin-aware Mixup technique that more explicitly achieves uneven margins. Extensive experimental results demonstrate that our proposed technique yields state-of-the-art performance on deep imbalanced classification while achieving superior performance on extremely imbalanced data. The code is open-sourced in our developed package https://github.com/ntucllab/imbalanced-DL to foster future research in this direction.
翻訳日:2023-11-06 17:14:11 公開日:2023-11-03
# 熱相転移検出における絡み合いエントロピーの限界

Limitations of entanglement entropy in detecting thermal phase transitions ( http://arxiv.org/abs/2310.11205v2 )

ライセンス: Link先を確認
Niko Jokela, Helime Ruotsalainen, Javier G. Subils(参考訳) ホログラフィック的に記述されたゲージ理論の族における熱相転移を検出するツールとしての絡み合いエントロピーの有効性について検討する。 これらの理論の豊かな位相図は、臨界点と三点と同様に、一階と二階の位相遷移を含む。 絡み合い測度はプラズマ相間の遷移の探索に成功しているものの、ガッピング相につながる相転移に適用すると不十分であることが証明される。 それでも、絡み合い対策は観測された相転移に関連する臨界指数を正確に決定し、これらのシステムの臨界挙動に関する貴重な洞察を与える。

We explore the efficacy of entanglement entropy as a tool for detecting thermal phase transitions in a family of gauge theories described holographically. The rich phase diagram of these theories encompasses first and second-order phase transitions, as well as a critical and a triple point. While entanglement measures demonstrate some success in probing transitions between plasma phases, they prove inadequate when applied to phase transitions leading to gapped phases. Nonetheless, entanglement measures excel in accurately determining the critical exponent associated with the observed phase transitions, providing valuable insight into the critical behavior of these systems.
翻訳日:2023-11-06 17:07:37 公開日:2023-11-03
# 高品質物体検出のためのランクDETR

Rank-DETR for High Quality Object Detection ( http://arxiv.org/abs/2310.08854v3 )

ライセンス: Link先を確認
Yifan Pu, Weicong Liang, Yiduo Hao, Yuhui Yuan, Yukang Yang, Chao Zhang, Han Hu, Gao Huang(参考訳) 現代の検出トランスフォーマー(detrs)は、オブジェクトクエリのセットを使用して、境界ボックスのリストを予測し、分類信頼度スコアでソートし、与えられた入力画像の最終的な検出結果としてトップランクの予測を選択する。 高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。 DETRベースの検出器では、分類スコアとローカライズ精度の相違により、トップランクのバウンディングボックスは精度の低いローカライズ品質に悩まされ、高品質な検出器の構築を妨げる。 そこで本研究では, ランク指向設計の一連の提案により, 単純かつ高性能なdetrに基づく物体検出手法を提案する。 私たちの重要な貢献は (i)ポジティブな予測を促し、ネガティブな予測を抑圧し、偽陽性率を下げることのできるランク指向アーキテクチャ設計 (ii)高いiou閾値下でapを増加させるために、ランキング中により正確な位置推定精度の予測を優先するランク指向損失関数とマッチングコスト設計。 本稿では,最近のSOTA法(H-DETRとDINO-DETR)の改善に本手法を適用し,ResNet-$50$,Swin-T,Swin-Lなどの異なるバックボーンを用いたCOCOオブジェクト検出結果について報告する。 コードは \url{https://github.com/LeapLabTHU/Rank-DETR} で公開されている。

Modern detection transformers (DETRs) use a set of object queries to predict a list of bounding boxes, sort them by their classification confidence scores, and select the top-ranked predictions as the final detection results for the given input image. A highly performant object detector requires accurate ranking for the bounding box predictions. For DETR-based detectors, the top-ranked bounding boxes suffer from less accurate localization quality due to the misalignment between classification scores and localization accuracy, thus impeding the construction of high-quality detectors. In this work, we introduce a simple and highly performant DETR-based object detector by proposing a series of rank-oriented designs, combinedly called Rank-DETR. Our key contributions include: (i) a rank-oriented architecture design that can prompt positive predictions and suppress the negative ones to ensure lower false positive rates, as well as (ii) a rank-oriented loss function and matching cost design that prioritizes predictions of more accurate localization accuracy during ranking to boost the AP under high IoU thresholds. We apply our method to improve the recent SOTA methods (e.g., H-DETR and DINO-DETR) and report strong COCO object detection results when using different backbones such as ResNet-$50$, Swin-T, and Swin-L, demonstrating the effectiveness of our approach. Code is available at \url{https://github.com/LeapLabTHU/Rank-DETR}.
翻訳日:2023-11-06 17:06:59 公開日:2023-11-03
# SU($N$)$\times$U(1) Lattice Gauge Theoriesをシミュレートするためのスケーラブル、abイニシアトプロトコル

Scalable, ab initio protocol for quantum simulating SU($N$)$\times$U(1) Lattice Gauge Theories ( http://arxiv.org/abs/2310.08643v2 )

ライセンス: Link先を確認
Federica Maria Surace, Pierre Fromholz, Francesco Scazza, Marcello Dalmonte(参考訳) 本稿では,SU($N$)$\times$U(1)格子ゲージ理論のスケーラブルな量子シミュレーションのためのプロトコルを提案する。 このプロトコルは天然に存在するSU($N$)擬スピン対称性と、そのような原子種に特有の強い軌道間相互作用の組み合わせを利用する。 微視的力学の詳細な研究は、ゲージの不変性がパラメータ状態にどのように現れるかを示し、そのような理論のシミュレーションにおける主要な課題を特定することを可能にする。 量子シミュレーターとコンピュータの両方において、そのような理論のクラスの機能について、より深く分析するための重要な要素であるゲージ不変力学の観測に関する実験的安定性に関する要件に関する定量的結果を提供する。

We propose a protocol for the scalable quantum simulation of SU($N$)$\times$U(1) lattice gauge theories with alkaline-earth like atoms in optical lattices in both one- and two-dimensional systems. The protocol exploits the combination of naturally occurring SU($N$) pseudo-spin symmetry and strong inter-orbital interactions that is unique to such atomic species. A detailed ab initio study of the microscopic dynamics shows how gauge invariance emerges in an accessible parameter regime, and allows us to identify the main challenges in the simulation of such theories. We provide quantitative results about the requirements in terms of experimental stability in relation to observing gauge invariant dynamics, a key element for a deeper analysis on the functioning of such class of theories in both quantum simulators and computers.
翻訳日:2023-11-06 17:06:32 公開日:2023-11-03
# Bucks for Buckets (B4B): ステアリングエンコーダに対するアクティブディフェンス

Bucks for Buckets (B4B): Active Defenses Against Stealing Encoders ( http://arxiv.org/abs/2310.08571v2 )

ライセンス: Link先を確認
Jan Dubi\'nski, Stanis{\l}aw Pawlak, Franziska Boenisch, Tomasz Trzci\'nski, Adam Dziedzic(参考訳) 機械学習・アズ・ア・サービス(MLaaS)APIは、所定の入力に対してベクトル表現を生成する準備ができている高ユーティリティエンコーダを提供する。 これらのエンコーダはトレーニングに非常にコストがかかるため、敵がAPIへのクエリアクセスを活用して、オリジナルのトレーニングコストのごく一部でエンコーダをローカルに複製するモデル盗難攻撃の収益目標となる。 我々はbucks for buckets (b4b)を提案する。これは、正当なapiユーザの表現品質を損なうことなく攻撃が行われている間、盗みを防止する最初のアクティブディフェンスである。 我々の弁護は、エンコーダの機能を盗もうとする敵に返却された表現が、エンコーダを使用して特定の下流タスクを解決する正当なユーザの表現よりも、埋め込み空間のかなり大きな部分をカバーしているという観察に依存している。vb4bは、これを利用して、エンコーダが返された表現の効用を、ユーザの埋め込み空間の範囲に応じて適応的に調整する。 B4Bは、複数のユーザアカウント(シビル)を作成するだけで、適応的な敵が防御を損なうのを防ぐため、各ユーザの表現を個別に変換する。 これにより、敵は複数のアカウント上の表現を直接集約して盗んだエンコーダコピーを作成することができない。 私たちのactive defenseは、公開apiよりもエンコーダをセキュアに共有し、民主化する新たな道を開きます。

Machine Learning as a Service (MLaaS) APIs provide ready-to-use and high-utility encoders that generate vector representations for given inputs. Since these encoders are very costly to train, they become lucrative targets for model stealing attacks during which an adversary leverages query access to the API to replicate the encoder locally at a fraction of the original training costs. We propose Bucks for Buckets (B4B), the first active defense that prevents stealing while the attack is happening without degrading representation quality for legitimate API users. Our defense relies on the observation that the representations returned to adversaries who try to steal the encoder's functionality cover a significantly larger fraction of the embedding space than representations of legitimate users who utilize the encoder to solve a particular downstream task.vB4B leverages this to adaptively adjust the utility of the returned representations according to a user's coverage of the embedding space. To prevent adaptive adversaries from eluding our defense by simply creating multiple user accounts (sybils), B4B also individually transforms each user's representations. This prevents the adversary from directly aggregating representations over multiple accounts to create their stolen encoder copy. Our active defense opens a new path towards securely sharing and democratizing encoders over public APIs.
翻訳日:2023-11-06 17:06:18 公開日:2023-11-03
# 知識強化とアライメントによる知識付き対話システムにおける実情整合性の改善

Improving Factual Consistency for Knowledge-Grounded Dialogue Systems via Knowledge Enhancement and Alignment ( http://arxiv.org/abs/2310.08372v3 )

ライセンス: Link先を確認
Boyang Xue and Weichao Wang and Hongru Wang and Fei Mi and Rui Wang and Yasheng Wang and Lifeng Shang and Xin Jiang and Qun Liu and Kam-Fai Wong(参考訳) 事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。 このような矛盾した反応では、対話モデルは彼らが依存する外部知識を正確に表現できない。 トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,知識の強化とアライメントによる事実表現能力(FFNs)を効率的に改善する2つの方法を検討した。 そこで我々はまず,知識接頭辞入力の特定のパターンを考慮し,変換子に拡張FFNを導入し,現実的知識表現を向上する「textsc{K-Dial}」を提案する。 さらに,事実整合性(rlfc)法に強化学習を適用し,事実一貫性優先のためのゴールド知識と整合することにより,応答中のffn表現を暗黙的に調整する。 応答の事実整合性と対話品質を包括的に評価するために,高度な粒度NLI基準を含む広範囲な自動測度と人的評価を用いる。 WoW と CMU\_DoG データセットによる実験結果から,本手法は実測知識を伝達するFFN モジュールの効率よく向上し,実測情報に基づく対話システムにおける実測一貫性向上の有効性が検証された。

Pretrained language models (PLMs) based knowledge-grounded dialogue systems are prone to generate responses that are factually inconsistent with the provided knowledge source. In such inconsistent responses, the dialogue models fail to accurately express the external knowledge they rely upon. Inspired by previous work which identified that feed-forward networks (FFNs) within Transformers are responsible for factual knowledge expressions, we investigate two methods to efficiently improve the factual expression capability {of FFNs} by knowledge enhancement and alignment respectively. We first propose \textsc{K-Dial}, which {explicitly} introduces {extended FFNs in Transformers to enhance factual knowledge expressions} given the specific patterns of knowledge-grounded dialogue inputs. Additionally, we apply the reinforcement learning for factual consistency (RLFC) method to implicitly adjust FFNs' expressions in responses by aligning with gold knowledge for the factual consistency preference. To comprehensively assess the factual consistency and dialogue quality of responses, we employ extensive automatic measures and human evaluations including sophisticated fine-grained NLI-based metrics. Experimental results on WoW and CMU\_DoG datasets demonstrate that our methods efficiently enhance the ability of the FFN module to convey factual knowledge, validating the efficacy of improving factual consistency for knowledge-grounded dialogue systems.
翻訳日:2023-11-06 17:05:49 公開日:2023-11-03
# MODIS多重スペクトル時系列と補助データを用いたLULCクラスのブラインドスペクトルアンミキシングのための深層学習

Deep Learning for blind spectral unmixing of LULC classes with MODIS multispectral time series and ancillary data ( http://arxiv.org/abs/2310.07223v2 )

ライセンス: Link先を確認
Jos\'e Rodr\'iguez-Ortega (1 and 2), Rohaifa Khaldi (2), Domingo Alcaraz-Segura (3), Siham Tabik (1) ((1) Department of Computer Science and Artificial Intelligence, DaSCI, University of Granada, Granada, Spain, (2) LifeWatch-ERIC ICT Core, Seville, Spain, (3) Department of Botany, Faculty of Science, University of Granada, Granada, Spain)(参考訳) リモートセンシングされたデータは、土地利用と土地被覆(LULC)が混在している。 スペクトル・アンミキシング(spectrum unmixing)は、混合画素からそれらの構成lulcタイプと対応する剰余分に情報を抽出する技術である。 伝統的に、このタスクの解決は、エンドメンバーの事前知識を必要とする古典的な方法や、明確なエンドメンバーの計算を避ける機械学習手法、あるいはブラインドスペクトルアンミックス(BSU)と呼ばれる方法に依存してきた。 ディープラーニング(DL)に基づくほとんどのBSU研究は、1つの時間ステップのハイパースペクトルまたはマルチスペクトルデータに焦点を当てている。 そこで本研究では,MODISマルチスペクトル時系列を用いたLULCクラスのBSUに関する最初の研究を行った。 地理+地形(ジオトポグラフィ)と気候補助情報を組み込んだ長短記憶モデル(LSTM)の性能をさらに向上させる。 実験の結果, 時空間入力データと地形情報と気候情報を組み合わせることで, 混合画素におけるLULCクラスの存在量の推定が大幅に向上することがわかった。 本研究では,2013年にmodisから460mの解像度で,andalusia multispectral multitemporal unmixing (andalusia-msmtu) という2つの階層的なlulcクラスに対して,毎月マルチスペクトルの画素列を持つアンダルシア地域(spain)のラベル付きデータセットを構築した。 このデータセットは、画素レベルでは、各画素内のLULCクラスの存在量に注釈を付けた多重スペクトル時系列と補助情報を提供する。 データセット(https://zenodo.org/record/7752348##.ZBmkkezMLdo)とコード(https://github.com/jrodriguezortega/MSMTU)が一般公開されている。

Remotely sensed data are dominated by mixed Land Use and Land Cover (LULC) types. Spectral unmixing is a technique to extract information from mixed pixels into their constituent LULC types and corresponding abundance fractions. Traditionally, solving this task has relied on either classical methods that require prior knowledge of endmembers or machine learning methods that avoid explicit endmembers calculation, also known as blind spectral unmixing (BSU). Most BSU studies based on Deep Learning (DL) focus on one time-step hyperspectral or multispectral data. To our knowledge, here we provide the first study on BSU of LULC classes using MODIS multispectral time series, in presence of missing data, with end-to-end DL models. We further boost the performance of a Long-Short Term Memory (LSTM)-based model by incorporating geographic plus topographic (geo-topographic) and climatic ancillary information. Our experiments show that combining spectral-temporal input data together with geo-topographic and climatic information substantially improves the abundance estimation of LULC classes in mixed pixels. To carry out this study, we built a new labeled dataset of the region of Andalusia (Spain) with monthly multispectral time series of pixels for the year 2013 from MODIS at 460m resolution, for two hierarchical levels of LULC classes, named Andalusia MultiSpectral MultiTemporal Unmixing (Andalusia-MSMTU). This dataset provides, at the pixel level, a multispectral time series plus ancillary information annotated with the abundance of each LULC class inside each pixel. The dataset (https://zenodo.org/record/7752348##.ZBmkkezMLdo) and code (https://github.com/jrodriguezortega/MSMTU) are available to the public.
翻訳日:2023-11-06 17:04:54 公開日:2023-11-03
# GlitterかGoldか? 大規模言語モデルによるサステナビリティレポートからの構造化された洞察の導出

Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models ( http://arxiv.org/abs/2310.05628v2 )

ライセンス: Link先を確認
Marco Bronzini, Carlo Nicolini, Bruno Lepri, Andrea Passerini, Jacopo Staiano(参考訳) 過去10年間で、いくつかの規制機関が、環境・社会・ガバナンス(esg)問題に対する投資家の関心の高まりを踏まえて、上場企業からの非金融情報の開示を要求し始めている。 このような情報は、さまざまな非構造化およびマルチモーダルドキュメントで公開されている。 したがって、企業や市場をまたがる持続可能性プラクティスに関する洞察をさらに導き出すため、結束した枠組みでこれらのデータを集約して統合するのは簡単ではない。 これらの前提を考えると、利害関係者に簡潔で情報的かつ実行可能なデータを提供するための情報抽出(ie)技術に頼るのは自然なことです。 従来のテキスト処理技術を超えて、この研究では、大規模言語モデル(LLM)と、卓越したコンテキスト内学習技術と、Retrieved Augmented Generation(RAG)パラダイムを活用して、企業の持続可能性レポートから意味的に構造化されたESG関連情報を抽出します。 次に,企業によるサステナビリティレポートにおけるESG関連行動に関する有意義な統計的,類似性,相関分析を行うために,グラフに基づく表現を採用する。 これらの分析により、企業は認識、コンプライアンス、パートナーシップを含むいくつかのアクションを通じてesg関連の問題に対処できることが明らかになった。 また、同地域やセクターの企業間での開示類似性も現れた。 最後に,その事実が企業のESGスコアに与える影響を,我々の発見やその他の企業情報を用いて調査する。 この分析により、企業の開示がESGのスコアに他の財務・企業特性よりも影響があることが明らかになった。

Over the last decade, several regulatory bodies have started requiring the disclosure of non-financial information from publicly listed companies, in light of the investors' increasing attention to Environmental, Social, and Governance (ESG) issues. Such information is publicly released in a variety of non-structured and multi-modal documentation. Hence, it is not straightforward to aggregate and consolidate such data in a cohesive framework to further derive insights about sustainability practices across companies and markets. Given these premises, it is natural to resort to Information Extraction (IE) techniques to provide concise, informative, and actionable data to the stakeholders. Moving beyond traditional text processing techniques, in this work we leverage Large Language Models (LLMs), along with the prominent in-context learning technique and the Retrieved Augmented Generation (RAG) paradigm, to extract semantically structured ESG-related information from companies' sustainability reports. We then adopt graph-based representations to conduct meaningful statistical, similarity and correlation analyses concerning the ESG-related actions disclosed by companies in their sustainability reports. These analyses unveiled that companies address ESG-related issues through several actions encompassing recognition, compliance, and partnerships; highlighting the complexity and joint efforts needed to address them. Moreover, disclosure similarities emerged among companies from the same region or sector. Lastly, we investigate which factual aspects impact the most on companies' ESG scores using our findings and other company information. This analysis unveiled that companies' disclosures affect ESG scores more than other financial or company characteristics.
翻訳日:2023-11-06 17:04:10 公開日:2023-11-03
# 動的Top-k推定による特徴属性の分散化

Dynamic Top-k Estimation Consolidates Disagreement between Feature Attribution Methods ( http://arxiv.org/abs/2310.05619v2 )

ライセンス: Link先を確認
Jonathan Kamp, Lisa Beinborn, Antske Fokkens(参考訳) 特徴属性スコアは、k個のトークンをハイライトすることで、テキスト分類器の予測をユーザに説明するために使用される。 本研究では,帰属スコアの逐次特性から表示すべき最適なkトークン数を決定する手法を提案する。 我々のアプローチは文をまたいで動的であり、メソッドに依存しず、文長バイアスを扱う。 固定kと動的kを用いてnliタスクにおける複数の手法と人間との一致を比較する。 その結果,摂動に基づく手法とバニラ勾配は,静的kを用いた手法-手法-手法-ヒューマン・アグリーメント指標の最大値を示すことがわかった。 他のメソッドに対するアドバンテージは、Integrated GradientとGradientXInputを主に改善した動的ksで消える。 我々の知る限り、帰属スコアの逐次的特性が人間解釈のための帰属信号の統合に有益であることを示す最初の証拠である。

Feature attribution scores are used for explaining the prediction of a text classifier to users by highlighting a k number of tokens. In this work, we propose a way to determine the number of optimal k tokens that should be displayed from sequential properties of the attribution scores. Our approach is dynamic across sentences, method-agnostic, and deals with sentence length bias. We compare agreement between multiple methods and humans on an NLI task, using fixed k and dynamic k. We find that perturbation-based methods and Vanilla Gradient exhibit highest agreement on most method--method and method--human agreement metrics with a static k. Their advantage over other methods disappears with dynamic ks which mainly improve Integrated Gradient and GradientXInput. To our knowledge, this is the first evidence that sequential properties of attribution scores are informative for consolidating attribution signals for human interpretation.
翻訳日:2023-11-06 17:03:44 公開日:2023-11-03
# 話者適応型口唇読解のための分離可能な隠れ単位寄与の学習

Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading ( http://arxiv.org/abs/2310.05058v2 )

ライセンス: Link先を確認
Songtao Luo, Shuang Yang, Shiguang Shan, Xilin Chen(参考訳) 本稿では,2つの観察結果に動機づけられた唇読解における話者適応法を提案する。 第一に、話者自身の特徴は、顔の少ない画像や浅いネットワークを持つ単一の画像によって常にうまく表現できるが、話し手によって表現される音声内容に関連するきめ細かいダイナミックな特徴は、常に正確に表現するために深いシーケンシャルなネットワークを必要とする。 そこで,我々は浅い層と深い層を話者適応型口唇読解のために異なる扱いをする。 第2に, 話者の独特の特徴(例えば, 口蓋腔, 下顎骨など)が, 異なる単語や発音に対する唇読取性能に様々な影響を与え, 頑健な唇読取特性の適応的増強や抑制が必要であることを観察した。 これら2つの観察に基づいて,話者の特性を生かして,それぞれ浅い層と深い層を対象とする分離可能な隠れ単位寄与を自動的に学習することを提案する。 音声コンテンツの特徴に関する特徴が音声コンテンツ関連特徴よりも強い浅い層に対して,音声コンテンツ機能の向上のために,話者適応機能を導入する。 話者の特徴と音声内容がすべて良好に表現された深い層に対しては,頑健な唇読解のための無関係な雑音を抑えるための話者適応的特徴を導入する。 総合的な分析と比較によって確認されるように,提案手法は既存の手法を一貫して上回っている。 LRW-ID と GRID データセットの評価に加えて,評価のための新しいデータセット CAS-VSR-S68h もリリースし,少数の話者しか利用できないが音声内容が広範かつ多様化した範囲をカバーしている極端な環境で,その性能をさらに評価する。

In this paper, we propose a novel method for speaker adaptation in lip reading, motivated by two observations. Firstly, a speaker's own characteristics can always be portrayed well by his/her few facial images or even a single image with shallow networks, while the fine-grained dynamic features associated with speech content expressed by the talking face always need deep sequential networks to represent accurately. Therefore, we treat the shallow and deep layers differently for speaker adaptive lip reading. Secondly, we observe that a speaker's unique characteristics ( e.g. prominent oral cavity and mandible) have varied effects on lip reading performance for different words and pronunciations, necessitating adaptive enhancement or suppression of the features for robust lip reading. Based on these two observations, we propose to take advantage of the speaker's own characteristics to automatically learn separable hidden unit contributions with different targets for shallow layers and deep layers respectively. For shallow layers where features related to the speaker's characteristics are stronger than the speech content related features, we introduce speaker-adaptive features to learn for enhancing the speech content features. For deep layers where both the speaker's features and the speech content features are all expressed well, we introduce the speaker-adaptive features to learn for suppressing the speech content irrelevant noise for robust lip reading. Our approach consistently outperforms existing methods, as confirmed by comprehensive analysis and comparison across different settings. Besides the evaluation on the popular LRW-ID and GRID datasets, we also release a new dataset for evaluation, CAS-VSR-S68h, to further assess the performance in an extreme setting where just a few speakers are available but the speech content covers a large and diversified range.
翻訳日:2023-11-06 17:03:01 公開日:2023-11-03
# コントラスト学習のためのハードビュー選択

Hard View Selection for Contrastive Learning ( http://arxiv.org/abs/2310.03940v2 )

ライセンス: Link先を確認
Fabio Ferreira, Ivo Rapant, Frank Hutter(参考訳) 多くのコントラスト学習(cl)法は、良いデータ拡張パイプラインが重要である画像入力の異なる「ビュー」に不変であるようにモデルを訓練する。 プリテキストタスク、アーキテクチャ、ロバスト性の改善(例えば、シームズネットワークや教師ソフトマックス中心化など)にかなりの努力が払われたが、これらの手法の大半は、ランダムな再サイズ作物や色歪み操作のような画像拡張パイプライン内の操作のランダムサンプリングに強く依存している。 本稿では,ビュー生成の役割とそのパフォーマンスへの影響が,これまでのところ十分注目されていないことを論じる。 これに対処するために,clトレーニング中にトレーニング済みモデルをより難しいサンプルに公開するために,ランダムビュー生成を拡張するように設計された,簡単で学習不要かつ強力なハードビュー選択(hvs)戦略を提案する。 以下の反復的なステップを含む。 1)複数のビューをランダムにサンプリングし、2つのビューのペアを作成する。 2) トレーニング済みのモデルでは,ビューペアごとに前方パスを実行します。 3) 反対に,最悪の損失をもたらすペアを選択し, 4) 選択したペアで後方パスを実行する。 実験分析の結果,hvsでは,事前学習中のビューの結合を制御し,タスクの難易度を高めることが示された。 300-epochプリトレインのみにより、hvsは800-epoch dinoベースラインと密接に競合することができ、これはhvsの追加のフォワードによって引き起こされる減速の要因としても非常に有利である。 さらに、HVSは、リニア評価とDINO、SimSiam、SimCLRなどの複数のCLメソッド間の転送タスクにおける同様の改善で、ImageNetの0.4%から1.9%の精度の改善を一貫して達成している。

Many Contrastive Learning (CL) methods train their models to be invariant to different "views" of an image input for which a good data augmentation pipeline is crucial. While considerable efforts were directed towards improving pre-text tasks, architectures, or robustness (e.g., Siamese networks or teacher-softmax centering), the majority of these methods remain strongly reliant on the random sampling of operations within the image augmentation pipeline, such as the random resized crop or color distortion operation. In this paper, we argue that the role of the view generation and its effect on performance has so far received insufficient attention. To address this, we propose an easy, learning-free, yet powerful Hard View Selection (HVS) strategy designed to extend the random view generation to expose the pretrained model to harder samples during CL training. It encompasses the following iterative steps: 1) randomly sample multiple views and create pairs of two views, 2) run forward passes for each view pair on the currently trained model, 3) adversarially select the pair yielding the worst loss, and 4) run the backward pass with the selected pair. In our empirical analysis we show that under the hood, HVS increases task difficulty by controlling the Intersection over Union of views during pretraining. With only 300-epoch pretraining, HVS is able to closely rival the 800-epoch DINO baseline which remains very favorable even when factoring in the slowdown induced by the additional forwards of HVS. Additionally, HVS consistently achieves accuracy improvements on ImageNet between 0.4% and 1.9% on linear evaluation and similar improvements on transfer tasks across multiple CL methods, such as DINO, SimSiam, and SimCLR.
翻訳日:2023-11-06 17:02:28 公開日:2023-11-03
# 頑健なニューラル・オードに対する極小最適制御法

A minimax optimal control approach for robust neural ODEs ( http://arxiv.org/abs/2310.17584v2 )

ライセンス: Link先を確認
Cristina Cipriani, Alessandro Scagliotti, Tobias W\"ohrer(参考訳) 本稿では,頑健な制御の観点から,ニューラルなODEの対角的訓練について述べる。 これは経験的リスク最小化による古典的な訓練の代替であり、入力摂動に対する信頼性の高い結果の強制に広く用いられている。 ニューラルネットワークは、深層ニューラルネットワークを制御システムの離散化として解釈し、制御理論から強力なツールを解き放ち、機械学習の開発と理解を可能にする。 この特定の場合において、摂動データを用いた対角トレーニングを極小最適制御問題として定式化し、ポントリャーギンの最大原理の形で一階最適条件を導出する。 我々は、低次元の分類タスクでテストする代替の重み付け手法に導く、頑健なトレーニングの新たな解釈を提供する。

In this paper, we address the adversarial training of neural ODEs from a robust control perspective. This is an alternative to the classical training via empirical risk minimization, and it is widely used to enforce reliable outcomes for input perturbations. Neural ODEs allow the interpretation of deep neural networks as discretizations of control systems, unlocking powerful tools from control theory for the development and the understanding of machine learning. In this specific case, we formulate the adversarial training with perturbed data as a minimax optimal control problem, for which we derive first order optimality conditions in the form of Pontryagin's Maximum Principle. We provide a novel interpretation of robust training leading to an alternative weighted technique, which we test on a low-dimensional classification task.
翻訳日:2023-11-06 16:55:13 公開日:2023-11-03
# アンチフェイクプロンプト:プロンプト付き視覚ランゲージモデルはフェイク画像検出器

AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors ( http://arxiv.org/abs/2310.17419v2 )

ライセンス: Link先を確認
You-Ming Chang, Chen Yeh, Wei-Chen Chiu, Ning Yu(参考訳) 深層生成モデルは、深部フェイク脅威として知られる誤情報や著作権侵害に対する懸念を高めながら、驚くほど写実的な偽画像を作成することができる。 ディープフェイク検出技術は実画像と偽画像とを区別するために開発され、既存の手法では画像領域や様々な特徴領域の分類器を訓練する。 しかし、より先進的な生成モデルに対するディープフェイク検出の一般化は依然として困難である。 本稿では,視覚言語モデル(vlms)のゼロショット・アドバンテージに触発されて,vlms(例えばinstructblip)とプロンプト・チューニング技術を用いた新しい手法を提案する。 ディープフェイク検出を視覚的質問応答問題として定式化し,クエリ画像の識別のためのソフトプロンプトをインストラクタにチューニングする。 3つのホールドインおよび13のホールドアウト生成モデルから得られたデータセットのフルスペクトル実験を行い、現代のテキスト画像生成、画像編集、画像攻撃をカバーした。 その結果,(1)事前学習した視覚言語モデルを用いたディープフェイク検出精度(54.6%から91.31%)の精度向上,(2)学習可能なパラメータのコスト低減,そしてディープフェイク検出の効率的かつ効率的な解決策が得られた。 コードとモデルはhttps://github.com/nctu-eva-lab/AntifakePrompt.comにある。

Deep generative models can create remarkably photorealistic fake images while raising concerns about misinformation and copyright infringement, known as deepfake threats. Deepfake detection technique is developed to distinguish between real and fake images, where the existing methods typically train classifiers in the image domain or various feature domains. However, the generalizability of deepfake detection against emerging and more advanced generative models remains challenging. In this paper, inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach using VLMs (e.g. InstructBLIP) and prompt tuning techniques to improve the deepfake detection accuracy over unseen data. We formulate deepfake detection as a visual question answering problem, and tune soft prompts for InstructBLIP to distinguish a query image is real or fake. We conduct full-spectrum experiments on datasets from 3 held-in and 13 held-out generative models, covering modern text-to-image generation, image editing and image attacks. Results demonstrate that (1) the deepfake detection accuracy can be significantly and consistently improved (from 54.6% to 91.31%, in average accuracy over unseen data) using pretrained vision-language models with prompt tuning; (2) our superior performance is at less cost of trainable parameters, resulting in an effective and efficient solution for deepfake detection. Code and models can be found at https://github.com/nctu-eva-lab/AntifakePrompt.
翻訳日:2023-11-06 16:55:00 公開日:2023-11-03
# ユニバーサル微分方程式を用いたSIRモデルによるCOVID-19地域伝播の学習

Learning COVID-19 Regional Transmission Using Universal Differential Equations in a SIR model ( http://arxiv.org/abs/2310.16804v2 )

ライセンス: Link先を確認
Adrian Rojas-Campos, Lukas Stelz, Pascal Nieters(参考訳) 新型コロナウイルスなどの感染症の感染拡大のモデル化が困難である。 単一領域のSIRモデルは感染の入ってくる力を考慮せず、それらを多数の相互作用する領域に拡張するには、現実の世界に存在しない多くの仮定が必要となる。 SIR+UDEモデルを用いて、近隣地域の影響を捉え、モデルの予測を改善するために、ユニバーサル微分方程式(UDE)を提案する。 UDEは、ディープニューラルネットワーク(DNN)によって完全にあるいは部分的に定義される微分方程式である。 我々は他の領域からの感染の入射力を学ぶdnnによって構成されるsir方程式に付加項を含む。 学習は自動微分と勾配降下を用いて行われ、近隣地域の状態によって引き起こされる対象システムの変化にアプローチする。 提案モデルについて,単一地域sirとdnnのみからなるデータ駆動モデルとの比較を行った。 提案するude+sirモデルは,より正確に発生ダイナミクスを捉える予測を生成するが,発生の最終段階では性能の低下が観測される。 単一領域のSIRと完全なデータ駆動のアプローチは、適切なダイナミクスを正確に捉えていない。 予測が得られた後、我々はSINDyアルゴリズムを用いてDNNを回帰的に置換し、エラーレベルを著しく向上させることなくモデルのブラックボックス要素を除去した。

Highly-interconnected societies difficult to model the spread of infectious diseases such as COVID-19. Single-region SIR models fail to account for incoming forces of infection and expanding them to a large number of interacting regions involves many assumptions that do not hold in the real world. We propose using Universal Differential Equations (UDEs) to capture the influence of neighboring regions and improve the model's predictions in a combined SIR+UDE model. UDEs are differential equations totally or partially defined by a deep neural network (DNN). We include an additive term to the SIR equations composed by a DNN that learns the incoming force of infection from the other regions. The learning is performed using automatic differentiation and gradient descent to approach the change in the target system caused by the state of the neighboring regions. We compared the proposed model using a simulated COVID-19 outbreak against a single-region SIR and a fully data-driven model composed only of a DNN. The proposed UDE+SIR model generates predictions that capture the outbreak dynamic more accurately, but a decay in performance is observed at the last stages of the outbreak. The single-area SIR and the fully data-driven approach do not capture the proper dynamics accurately. Once the predictions were obtained, we employed the SINDy algorithm to substitute the DNN with a regression, removing the black box element of the model with no considerable increase in the error levels.
翻訳日:2023-11-06 16:54:04 公開日:2023-11-03
# 大規模言語モデルからの事前学習データの検出

Detecting Pretraining Data from Large Language Models ( http://arxiv.org/abs/2310.16789v2 )

ライセンス: Link先を確認
Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer(参考訳) 大規模言語モデル(LLM)は広くデプロイされているが、それらのトレーニングに使用されるデータはほとんど公開されていない。 このデータの驚くべき規模、数兆のトークンを考えると、著作権のある資料、個人を特定する情報、広く報告された基準ベンチマークのためのテストデータなど、潜在的に問題のあるテキストを含むことはほぼ確実である。 しかし、現在、これらの型のどのデータがどのデータを含んでいるか、どの比率で含まれているかを知る方法がありません。 本稿では,事前学習データ検出の問題について検討する。事前学習データを知ることなく,テキスト片とブラックボックスアクセスをLLMに与えることで,提案したテキストでモデルがトレーニングされたかどうかを判断できる。 本研究では,モデル学習前後に作成されたデータを用いてゴールド真理検出を支援する動的ベンチマークWIKIMIAを提案する。 また, 単純な仮説に基づく新たな検出手法Min-K% Probを導入する: 未知の例は, LLMの下では低い確率でいくつかの不規則な単語を含む傾向があり, また、そのような確率で低い単語を持つ場合が少なくなる。 min-k% probは、事前トレーニングコーパスや追加のトレーニングに関する知識がなくても適用でき、事前トレーニングデータに類似したデータに対する参照モデルのトレーニングを必要とする以前の検出方法から外れる。 さらに,Min-K% ProbがWIKIMIAを7.4%向上させることを示した。 我々はMin-K% Probを3つの実世界のシナリオに適用し、著作権付き本の検出、下流で汚染されたサンプルの検出と機械学習のプライバシー監査を行い、一貫した効果的な解決策を見出した。

Although large language models (LLMs) are widely deployed, the data used to train them is rarely disclosed. Given the incredible scale of this data, up to trillions of tokens, it is all but certain that it includes potentially problematic text such as copyrighted materials, personally identifiable information, and test data for widely reported reference benchmarks. However, we currently have no way to know which data of these types is included or in what proportions. In this paper, we study the pretraining data detection problem: given a piece of text and black-box access to an LLM without knowing the pretraining data, can we determine if the model was trained on the provided text? To facilitate this study, we introduce a dynamic benchmark WIKIMIA that uses data created before and after model training to support gold truth detection. We also introduce a new detection method Min-K% Prob based on a simple hypothesis: an unseen example is likely to contain a few outlier words with low probabilities under the LLM, while a seen example is less likely to have words with such low probabilities. Min-K% Prob can be applied without any knowledge about the pretraining corpus or any additional training, departing from previous detection methods that require training a reference model on data that is similar to the pretraining data. Moreover, our experiments demonstrate that Min-K% Prob achieves a 7.4% improvement on WIKIMIA over these previous methods. We apply Min-K% Prob to three real-world scenarios, copyrighted book detection, contaminated downstream example detection and privacy auditing of machine unlearning, and find it a consistently effective solution.
翻訳日:2023-11-06 16:53:44 公開日:2023-11-03
# オフセットビルディングモデル(OBM)によるオフナディア航空画像からの都市ビルの再建

Rebuild City Buildings from Off-Nadir Aerial Images with Offset-Building Model (OBM) ( http://arxiv.org/abs/2310.16717v2 )

ライセンス: Link先を確認
Kai Li, Yupeng Deng, Yunlong Kong, Diyou Liu, Jingbo Chen, Yu Meng, Junxian Ma(参考訳) 超高解像度リモートセンシング画像における屋根から足へのオフセットの正確な測定は,都市情報抽出タスクにおいて重要である。 ディープラーニングの助けを借りて、既存の手法は2段階のCNNモデルを使って特徴マップの構築に関心のある領域を抽出する。 第一段階では、地域提案ネットワーク(RPN)を適用して数千のROI(関心の領域)を抽出し、地域ベースの畳み込みニューラルネットワーク(RCNN)にポストインポートして所望の情報を抽出する。 しかし、柔軟性のないRPNのため、これらの手法には効果的なユーザインタラクションが欠如し、事例対応の困難に遭遇し、汎用人工知能の進歩に追随するのは難しい。 本稿では,対話型トランスフォーマーモデルとプロンプトエンコーダを組み合わせることで,屋根からフットプリントへのオフセットベクトルだけでなく,建物のセグメンテーションを正確に抽出する。 我々のモデルでは、屋根からフットプリントまでのオフセットの予測において一般的な問題に対して強力なモジュール、ROAMを調整した。 我々は,公開可能なbonaiデータセット上でのモデルの実現性をテストし,14.6%から16.3%までのプロンプトインスタンスレベルのオフセットエラーを大幅に削減した。 さらに,大規模ビルディングオフセットに適したDistance-NMSアルゴリズムを開発し,予測されたビルディングオフセット角度と長さの精度を,簡便かつ効率的に向上させた。 モデルの堅牢性をさらに検証するため,中国福州市から0.5mのリモートセンシング画像を用いて,推論テストのための新しいテストセットを構築した。 私たちのコード、トレーニングメソッド、更新されたデータセットはhttps://github.com/likaiucas.com/でアクセスできます。

Accurate measurement of the offset from roof-to-footprint in very-high-resolution remote sensing imagery is crucial for urban information extraction tasks. With the help of deep learning, existing methods typically rely on two-stage CNN models to extract regions of interest on building feature maps. At the first stage, a Region Proposal Network (RPN) is applied to extract thousands of ROIs (Region of Interests) which will post-imported into a Region-based Convolutional Neural Networks (RCNN) to extract wanted information. However, because of inflexible RPN, these methods often lack effective user interaction, encounter difficulties in instance correspondence, and struggle to keep up with the advancements in general artificial intelligence. This paper introduces an interactive Transformer model combined with a prompt encoder to precisely extract building segmentation as well as the offset vectors from roofs to footprints. In our model, a powerful module, namely ROAM, was tailored for common problems in predicting roof-to-footprint offsets. We tested our model's feasibility on the publicly available BONAI dataset, achieving a significant reduction in Prompt-Instance-Level offset errors ranging from 14.6% to 16.3%. Additionally, we developed a Distance-NMS algorithm tailored for large-scale building offsets, significantly enhancing the accuracy of predicted building offset angles and lengths in a straightforward and efficient manner. To further validate the model's robustness, we created a new test set using 0.5m remote sensing imagery from Huizhou, China, for inference testing. Our code, training methods, and the updated dataset will be accessable at https://github.com/likaiucas.
翻訳日:2023-11-06 16:53:14 公開日:2023-11-03
# NaRb分子の複数回転状態に対するマジックトラップ

Magic Traps for Multiple Rotational States of NaRb Molecule ( http://arxiv.org/abs/2310.16215v2 )

ライセンス: Link先を確認
Svetlana Kotochigova, Qingze Guan, Vito Scarola, Brian DeMarco, Bryce Gadway(参考訳) 分子は振動、回転、スピン軌道、超微細な自由度を持ち、それぞれが外部電磁放射に特異的に反応する。 これらの量子状態の重ね合わせに対するコヒーレント制御は分子の操作の鍵となる。 例えば、より長い量子シミュレーションが続くほど、コヒーレンス時間が長くなる。 レーザー光で分子を制御する上で重要な量は、その複素値の分子動的偏光性である。 実際の部分は分子が感じたツイーザー電位を決定するが、想像的な部分はコヒーレンス時間に寄与する。 本研究は、電気双極子-forbidden分子遷移に対して、(数十ghzのオーダーで)小さなデチューニングを持つ選択レーザ周波数によって、光学ポテンシャルにおける分子の効率的なトラップを実現することを示唆する。 この遷移に近接して、これらの状態間のコヒーレンスを犠牲にすることなく、多重回転状態のトラップ電位を著しく修正することができる。 超低温23na87rb極性分子の複数の回転状態に対するマジックトラップ条件が生成できることを実証する。 また,スピン分離したマジックトラップは磁場方向に向いた静電場を印加することで実現可能であることを示した。

Molecules have vibrational, rotational, spin-orbit and hyperfine degrees of freedom, each of which responds in a unique fashion to external electromagnetic radiation. The coherent control over superpositions of these quantum states is key to manipulation of molecules. For example, the better the coherence time the longer quantum simulations can last. The important quantity for controlling a molecule with laser light is its complex-valued molecular dynamic polarizability. Its real part determines the tweezer potential as felt by the molecule, while its imaginary part contributes to the coherence time. Our studies show that efficient trapping of a molecule in an optical potential can be achieved by a selecting laser frequency that has a small detuning (on the order of tens of GHz) relative to an electric-dipole-forbidden molecular transition. Close proximity to this transition allows us to significantly modify the trapping potentials for multiple rotational states without sacrificing coherences among these states. We demonstrate that magic trapping conditions for multiple rotational states in ultracold 23Na87Rb polar molecule can be created. In addition, we show that spin-decoupled magic trapping can be achieved with an applied static electric field oriented along the magnetic field direction.
翻訳日:2023-11-06 16:52:47 公開日:2023-11-03
# 法律シナリオを弁護士のように分析する上で, IRAC法によるChatGPT推論は有効か?

Can ChatGPT Perform Reasoning Using the IRAC Method in Analyzing Legal Scenarios Like a Lawyer? ( http://arxiv.org/abs/2310.14880v2 )

ライセンス: Link先を確認
Xiaoxi Kang, Lizhen Qu, Lay-Ki Soon, Adnan Trakic, Terry Yue Zhuo, Patrick Charles Emerton, Genevieve Grant(参考訳) ChatGPTのような大規模言語モデル(LLM)は、最近、様々な法的タスクに取り組む能力の出現により、法律分野において多くの注目を集めている。 しかし、LLMが訴訟を分析し、弁護士と同じ方法で推論を行うことができるかどうかはまだ不明である。 そこで我々はマレーシアの契約法と依存児のためのオーストラリア社会法に関するシナリオからなる新しいコーパスを構築した。 ChatGPTは、法的分析の組織化に法律専門家が広く使用しているフレームワークであるIRAC法を用いて、コーパスの分析を行う。 コーパスの各シナリオは、マシンと法律の専門家の両方がアノテーションを解釈し理解できるように、半構造化形式で完全なIRAC分析で注釈付けされる。 また, IRAC分析におけるChatGPTの初回評価を行い, 法的専門職の分析との整合性について検討した。 実験の結果,LLMと法の専門家との整合性を改善するための今後の研究の方向性に光を当てた。

Large Language Models (LLMs), such as ChatGPT, have drawn a lot of attentions recently in the legal domain due to its emergent ability to tackle a variety of legal tasks. However, it is still unknown if LLMs are able to analyze a legal case and perform reasoning in the same manner as lawyers. Therefore, we constructed a novel corpus consisting of scenarios pertain to Contract Acts Malaysia and Australian Social Act for Dependent Child. ChatGPT is applied to perform analysis on the corpus using the IRAC method, which is a framework widely used by legal professionals for organizing legal analysis. Each scenario in the corpus is annotated with a complete IRAC analysis in a semi-structured format so that both machines and legal professionals are able to interpret and understand the annotations. In addition, we conducted the first empirical assessment of ChatGPT for IRAC analysis in order to understand how well it aligns with the analysis of legal professionals. Our experimental results shed lights on possible future research directions to improve alignments between LLMs and legal experts in terms of legal reasoning.
翻訳日:2023-11-06 16:52:10 公開日:2023-11-03
# 最適制御レンズによるプロンプトエンジニアリング

Prompt Engineering Through the Lens of Optimal Control ( http://arxiv.org/abs/2310.14201v2 )

ライセンス: Link先を確認
Yifan Luo, Yiming Tang, Chengfeng Shen, Zhennan Zhou, Bin Dong(参考訳) Prompt Engineering (PE)は、複雑なタスクの解決において、LLM(Large Language Models)を導く重要なテクニックとして登場した。 その重要性は、人間と機械の相互作用の効率と効率を著しく向上させる可能性によって強調される。 タスクが複雑化するにつれて、最近の高度なPE手法は、LLMとのより深く、よりニュアンスなエンゲージメントを可能にするマルチラウンドインタラクションを受け入れるために、シングルラウンドインタラクションの制限を超えて拡張されている。 本稿では,LLMとのマルチラウンドインタラクションに適した最適制御フレームワークを提案する。 このフレームワークは、既存のPEメソッドを体系化するだけでなく、厳密な解析的改善の段階を設定できる統一された数学的構造を提供する。 さらに,本フレームワークを,アンサンブル手法とマルチエージェント協調によるPEを含むように拡張し,適用範囲を拡大する。 最適制御の観点を採用することで、既存のPE手法に対する新たな洞察を提供し、将来の研究を保証できる理論上の課題を強調します。 さらに,本研究は,より効率的かつ解釈可能なPE手法の開発の基礎となる。

Prompt Engineering (PE) has emerged as a critical technique for guiding Large Language Models (LLMs) in solving intricate tasks. Its importance is highlighted by its potential to significantly enhance the efficiency and effectiveness of human-machine interaction. As tasks grow increasingly complex, recent advanced PE methods have extended beyond the limitations of single-round interactions to embrace multi-round interactions, which allows for a deeper and more nuanced engagement with LLMs. In this paper, we propose an optimal control framework tailored for multi-round interactions with LLMs. This framework provides a unified mathematical structure that not only systematizes the existing PE methods but also sets the stage for rigorous analytical improvements. Furthermore, we extend this framework to include PE via ensemble methods and multi-agent collaboration, thereby enlarging the scope of applicability. By adopting an optimal control perspective, we offer fresh insights into existing PE methods and highlight theoretical challenges that warrant future research. Besides, our work lays a foundation for the development of more effective and interpretable PE methods.
翻訳日:2023-11-06 16:51:40 公開日:2023-11-03
# 多項式アクティベーションを持つグラフニューラルネットワークの表現性に制限がある

Graph Neural Networks with polynomial activations have limited expressivity ( http://arxiv.org/abs/2310.13139v2 )

ライセンス: Link先を確認
Sammy Khalife(参考訳) グラフニューラルネットワーク(GNN)の表現性は、一階述語論理の適切な断片によって完全に特徴づけられる。 すなわち、ラベル付きグラフ上で解釈された2つの変分論理(GC2)の任意のクエリは、クエリの深さにのみ依存する大きさのGNNを用いて表現することができる。 この記述は[Barcelo & Al., 2020, Grohe, 2021]で指摘されているように、活性化関数の族であり、選択された活性化関数に依存するGNNによって表現される論理階層の可能性を残している。 本稿では,gc2クエリが多項式アクティベーション関数を持つgnnで表現できないことを証明して,このような階層構造が存在することを示す。 これは多項式と一般的な非多項活性化(relus、sgmoid、hyperbolic tanなど)の分離を意味し、[grohe, 2021]で定式化されたオープン質問に答える。

The expressivity of Graph Neural Networks (GNNs) can be entirely characterized by appropriate fragments of the first-order logic. Namely, any query of the two variable fragment of graded modal logic (GC2) interpreted over labeled graphs can be expressed using a GNN whose size depends only on the depth of the query. As pointed out by [Barcelo & Al., 2020, Grohe, 2021], this description holds for a family of activation functions, leaving the possibility for a hierarchy of logics expressible by GNNs depending on the chosen activation function. In this article, we show that such hierarchy indeed exists by proving that GC2 queries cannot be expressed by GNNs with polynomial activation functions. This implies a separation between polynomial and popular non-polynomial activations (such as ReLUs, sigmoid and hyperbolic tan and others) and answers an open question formulated by [Grohe, 2021].
翻訳日:2023-11-06 16:50:44 公開日:2023-11-03
# 学生が教師になる方法: スペクトル法を通して学び忘れていく

How a student becomes a teacher: learning and forgetting through Spectral methods ( http://arxiv.org/abs/2310.12612v2 )

ライセンス: Link先を確認
Lorenzo Giambagli, Lorenzo Buffoni, Lorenzo Chicchi, Duccio Fanelli(参考訳) 理論MLでは、教師-学生パラダイムは実生活の授業の効果的なメタファーとしてしばしば用いられる。 この方式は,教師ネットワークと比較して生徒ネットワークが過小評価されている場合,特に有意である。 これらの運用条件下では、与えられたタスクを扱う学生の能力が最終的にネットワーク全体のサブポートに格納される可能性があると推測する傾向にある。 後者は、学生候補ネットワークの異なるアーキテクチャ間でほぼ不変でありながら、適切な指標に従って、凍結した教師構造をある程度思い出させるべきである。 残念ながら、最先端の従来の学習技術は、検査された問題を特徴づける非凸性の固有の程度のために、そのような不変サブネットワークの存在を特定するのに役立たなかった。 本研究では,レイヤ間の情報の線形伝達のスペクトル表現を基盤とした,根本的に異なる最適化手法を提案する。 したがって、勾配は、通常の訓練アルゴリズムと比較して計算量や複雑性の負荷が無視できる固有値と固有ベクトルの両方で計算される。 この枠組みで作業することで、教師の真の複雑さを、計算ニューロン、経路分布、トポロジ的属性の観点から反映する安定した学生サブ構造を分離できる。 訓練生の重要でないノードを刈り取るとき、最適化された固有値を反映したランクに従えば、記録されたパフォーマンスの劣化は、効果的な教師サイズに対応する閾値以上では見られない。 観察された挙動は、普遍性特性を持つ真の二階相遷移として描かれる。

In theoretical ML, the teacher-student paradigm is often employed as an effective metaphor for real-life tuition. The above scheme proves particularly relevant when the student network is overparameterized as compared to the teacher network. Under these operating conditions, it is tempting to speculate that the student ability to handle the given task could be eventually stored in a sub-portion of the whole network. This latter should be to some extent reminiscent of the frozen teacher structure, according to suitable metrics, while being approximately invariant across different architectures of the student candidate network. Unfortunately, state-of-the-art conventional learning techniques could not help in identifying the existence of such an invariant subnetwork, due to the inherent degree of non-convexity that characterizes the examined problem. In this work, we take a leap forward by proposing a radically different optimization scheme which builds on a spectral representation of the linear transfer of information between layers. The gradient is hence calculated with respect to both eigenvalues and eigenvectors with negligible increase in terms of computational and complexity load, as compared to standard training algorithms. Working in this framework, we could isolate a stable student substructure, that mirrors the true complexity of the teacher in terms of computing neurons, path distribution and topological attributes. When pruning unimportant nodes of the trained student, as follows a ranking that reflects the optimized eigenvalues, no degradation in the recorded performance is seen above a threshold that corresponds to the effective teacher size. The observed behavior can be pictured as a genuine second-order phase transition that bears universality traits.
翻訳日:2023-11-06 16:50:19 公開日:2023-11-03
# 機械学習による高速モデルデバイアス

Fast Model Debias with Machine Unlearning ( http://arxiv.org/abs/2310.12560v3 )

ライセンス: Link先を確認
Ruizhe Chen, Jianfei Yang, Huimin Xiong, Jianhong Bai, Tianxiang Hu, Jin Hao, Yang Feng, Joey Tianyi Zhou, Jian Wu, Zuozhu Liu(参考訳) 最近の発見により、深層ニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする可能性があることが判明した。 例えば、大規模な顔認識データセットCelebAでトレーニングされたディープネットワークは、女性のブロンドの髪と男性の黒い髪を予測する傾向がある。 このようなバイアスはモデルの堅牢性を損なうだけでなく、不公平な経済や社会的不平等を悪化させる可能性があるため、特に医療や採用などの自動意思決定プロセスに関係している社会的偏見を永続的かつ増幅する。 既存のデバイアス法ではバイアスラベリングやモデル再トレーニングに高いコストがかかる一方、モデル内のバイアスの起源を解明する観点では不足している。 そこで本研究では,学習モデルに内在するバイアスを識別,評価,除去するための効率的なアプローチを提供する高速モデルデバイアスフレームワーク(fmd)を提案する。 FMDは明示的な反ファクトの概念を通じてバイアス属性を特定し、影響関数を持つデータサンプルの影響を定量化する。 さらに,訓練モデルのバイアスを小さな反事実データセットで効果的かつ効果的に除去するために,マシンアンラーニングに基づく戦略を設計する。 色付きMNIST, CelebA, およびアダルト所得データセットと, 大規模言語モデルを用いた実験により, 本手法は, バイアスを著しく低減し, 遅延コストをはるかに低減しつつ, 最先端の手法に比べて優れた, あるいは競合する精度を達成できることが実証された。 特筆すべきは、この方法は小さな外部データセットと最小限のモデルパラメータの更新しか必要とせず、実際には大きすぎる、あるいは使用できない可能性のあるトレーニングデータにアクセスする必要がなくなることである。

Recent discoveries have revealed that deep neural networks might behave in a biased manner in many real-world scenarios. For instance, deep networks trained on a large-scale face recognition dataset CelebA tend to predict blonde hair for females and black hair for males. Such biases not only jeopardize the robustness of models but also perpetuate and amplify social biases, which is especially concerning for automated decision-making processes in healthcare, recruitment, etc., as they could exacerbate unfair economic and social inequalities among different groups. Existing debiasing methods suffer from high costs in bias labeling or model re-training, while also exhibiting a deficiency in terms of elucidating the origins of biases within the model. To this respect, we propose a fast model debiasing framework (FMD) which offers an efficient approach to identify, evaluate and remove biases inherent in trained models. The FMD identifies biased attributes through an explicit counterfactual concept and quantifies the influence of data samples with influence functions. Moreover, we design a machine unlearning-based strategy to efficiently and effectively remove the bias in a trained model with a small counterfactual dataset. Experiments on the Colored MNIST, CelebA, and Adult Income datasets along with experiments with large language models demonstrate that our method achieves superior or competing accuracies compared with state-of-the-art methods while attaining significantly fewer biases and requiring much less debiasing cost. Notably, our method requires only a small external dataset and updating a minimal amount of model parameters, without the requirement of access to training data that may be too large or unavailable in practice.
翻訳日:2023-11-06 16:49:51 公開日:2023-11-03
# アドホックからシステマティックへ:変分量子アルゴリズムにおける離散化PDEにおける一般境界条件の適用戦略

From Ad-Hoc to Systematic: A Strategy for Imposing General Boundary Conditions in Discretized PDEs in variational quantum algorithm ( http://arxiv.org/abs/2310.11764v2 )

ライセンス: Link先を確認
Dingjie Lu (1), Zhao Wang (1), Jun Liu (1), Yangfan Li (1), Wei-Bin Ewe (1), Zhuangjian Liu (1) ((1) Institute of High Performance Computing, Agency for Science, Technology and Research (A*STAR), Singapore)(参考訳) 偏微分方程式(pde)の解法として,ノイズ中規模量子(nisq)デバイスの指数関数パワーを利用する一般量子計算に基づくアルゴリズムを提案する。 この変分量子固有解法(VQE)にインスパイアされたアプローチは、厳密で単純化された境界条件で制約された以前の理想化されたモデル実証を超越する。 任意の境界条件の付与を可能にし、現実のアプリケーションへの可能性と適応性を著しく拡大し、この「アドホックから体系的」な概念を達成する。 本手法は, 4次PDE(Euler-Bernoulli beam)を例に実装し, 4つの異なる境界条件で実効性を示した。 このフレームワークは、問題のサイズに依存しない期待評価を可能にし、量子コンピューティングに固有の指数関数的に成長する状態空間を活用し、例外的なスケーラビリティをもたらす。 この方法は、量子コンピューティングを実用的な工学的応用に適用する方法を舗装する。

We proposed a general quantum-computing-based algorithm that harnesses the exponential power of noisy intermediate-scale quantum (NISQ) devices in solving partial differential equations (PDE). This variational quantum eigensolver (VQE)-inspired approach transcends previous idealized model demonstrations constrained by strict and simplistic boundary conditions. It enables the imposition of arbitrary boundary conditions, significantly expanding its potential and adaptability for real-world applications, achieving this "from ad-hoc to systematic" concept. We have implemented this method using the fourth-order PDE (the Euler-Bernoulli beam) as example and showcased its effectiveness with four different boundary conditions. This framework enables expectation evaluations independent of problem size, harnessing the exponentially growing state space inherent in quantum computing, resulting in exceptional scalability. This method paves the way for applying quantum computing to practical engineering applications.
翻訳日:2023-11-06 16:49:19 公開日:2023-11-03
# マルチビュービジュモータシステムのためのメタ学習

Meta Learning for Multi-View Visuomotor Systems ( http://arxiv.org/abs/2310.20414v2 )

ライセンス: Link先を確認
Benji Alwis(参考訳) 本稿では,ロボット用多視点バイスモータシステムをベースライン設定からカメラ構成に素早く適応させる新しい手法を提案する。 メタ学習を利用して、ポリシーネットワークを固定しながら知覚ネットワークを微調整する。 実験の結果,ベースライン性能を達成するために必要な新たなトレーニングエピソード数が大幅に減少した。

This paper introduces a new approach for quickly adapting a multi-view visuomotor system for robots to varying camera configurations from the baseline setup. It utilises meta-learning to fine-tune the perceptual network while keeping the policy network fixed. Experimental results demonstrate a significant reduction in the number of new training episodes needed to attain baseline performance.
翻訳日:2023-11-06 16:41:46 公開日:2023-11-03
# 医用画像におけるGPT-4Vのマルチモーダル機能に関する総合的研究

A Comprehensive Study of GPT-4V's Multimodal Capabilities in Medical Imaging ( http://arxiv.org/abs/2310.20381v2 )

ライセンス: Link先を確認
Yingshu Li, Yunyi Liu, Zhanyu Wang, Xinyu Liang, Lingqiao Liu, Lei Wang, Leyang Cui, Zhaopeng Tu, Longyue Wang, Luping Zhou(参考訳) 本稿では,放射線画像生成,医用視覚質問応答(VQA),視覚的グラウンドリングなど,様々な医療画像タスクにおけるGPT-4Vの能力を総合的に評価する。 医用画像分析におけるGPT-4Vの性能については,これまでにも検討されてきたが,本研究は一般用ベンチマークにおける最初の定量的評価である。 gpt-4vの胸部x線画像に対する記述的レポート作成における可能性,特に構造が整ったプロンプトにより誘導される場合について検討した。 一方、MIMIC-CXRデータセットベンチマークのパフォーマンスは、CIDErのような特定の評価指標を改善するための領域を明らかにする。 医療用VQAの領域では、GPT-4Vは質問タイプを区別する能力を示すが、精度の観点からはVQA-RADベンチマークに劣る。 さらに,より意味的に堅牢な評価手法の開発を提唱するBLEUスコアなどの従来の評価指標の限界も分析により明らかになった。 視覚接地の分野では、gpt-4vは境界ボックスの認識において予備的な約束を示すが、その精度は、特に特定の医療機関や標識の識別において不足している。 医用画像領域におけるGPT-4Vの意義と,その機能を完全に開放する目的の洗練の必要性を強調した。

This paper presents a comprehensive evaluation of GPT-4V's capabilities across diverse medical imaging tasks, including Radiology Report Generation, Medical Visual Question Answering (VQA), and Visual Grounding. While prior efforts have explored GPT-4V's performance in medical image anaylsis, to the best of our knowledge, our study represents the first quantitative evaluation on publicly available benchmarks. Our findings highlight GPT-4V's potential in generating descriptive reports for chest X-ray images, particularly when guided by well-structured prompts. Meanwhile, its performance on the MIMIC-CXR dataset benchmark reveals areas for improvement in certain evaluation metrics, such as CIDEr. In the domain of Medical VQA, GPT-4V demonstrates proficiency in distinguishing between question types but falls short of the VQA-RAD benchmark in terms of accuracy. Furthermore, our analysis finds the limitations of conventional evaluation metrics like the BLEU score, advocating for the development of more semantically robust assessment methods. In the field of Visual Grounding, GPT-4V exhibits preliminary promise in recognizing bounding boxes, but its precision is lacking, especially in identifying specific medical organs and signs. Our evaluation underscores the significant potential of GPT-4V in the medical imaging domain, while also emphasizing the need for targeted refinements to fully unlock its capabilities.
翻訳日:2023-11-06 16:41:41 公開日:2023-11-03
# 強化学習におけるドロップアウト戦略:政策最適化手法におけるサロゲート目的変数の制限

Dropout Strategy in Reinforcement Learning: Limiting the Surrogate Objective Variance in Policy Optimization Methods ( http://arxiv.org/abs/2310.20380v3 )

ライセンス: Link先を確認
Zhengpeng Xie, Changdong Yu, Weizheng Qiao(参考訳) ポリシーに基づく強化学習アルゴリズムは様々な分野で広く使われている。 このうち,TRPOやPPOなどの主流ポリシ最適化アルゴリズムは,過去のデータの再利用を可能にするポリシ反復に重要サンプリングを導入している。 しかし、これはサロゲートの目的のばらつきを招き、間接的にアルゴリズムの安定性と収束に影響を与えることもある。 本稿では,まず,対象値の増加に伴って二次的に成長することができる,対象変数の上限を導出した。 次に,重要サンプリングによるサロゲート目的分散の過剰増加を回避するために,ドロップアウト手法を提案する。 そこで本研究では,主流政策最適化手法に適用可能な汎用強化学習フレームワークを導入し,PPOアルゴリズムにドロップアウト手法を適用してD-PPO変種を求める。 最後に,Atari 2600環境におけるD-PPOとPPOの比較実験を行い,この結果から,D-PPOはPPOに比べて顕著な性能向上を達成でき,トレーニング中のサロゲート目的分散の過剰増加を効果的に抑制できることを示した。

Policy-based reinforcement learning algorithms are widely used in various fields. Among them, mainstream policy optimization algorithms such as TRPO and PPO introduce importance sampling into policy iteration, which allows the reuse of historical data. However, this can also lead to a high variance of the surrogate objective and indirectly affects the stability and convergence of the algorithm. In this paper, we first derived an upper bound of the surrogate objective variance, which can grow quadratically with the increase of the surrogate objective. Next, we proposed the dropout technique to avoid the excessive increase of the surrogate objective variance caused by importance sampling. Then, we introduced a general reinforcement learning framework applicable to mainstream policy optimization methods, and applied the dropout technique to the PPO algorithm to obtain the D-PPO variant. Finally, we conduct comparative experiments between D-PPO and PPO algorithms in the Atari 2600 environment, and the results show that D-PPO achieved significant performance improvements compared to PPO, and effectively limited the excessive increase of the surrogate objective variance during training.
翻訳日:2023-11-06 16:41:17 公開日:2023-11-03
# 分断訓練からテスト時間適応へ--医用画像分割のためのドメイン一般化の強化

From Denoising Training to Test-Time Adaptation: Enhancing Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2310.20271v2 )

ライセンス: Link先を確認
Ruxue Wen, Hangjie Yuan, Dong Ni, Wenbo Xiao, Yaoyao Wu(参考訳) 医用画像のセグメンテーションにおいて、領域の一般化は、データ取得装置のばらつきやその他の要因によるドメインシフトによって大きな課題となる。 これらのシフトは、プライバシの懸念による単一ソースのドメインデータのみを含む、最も一般的なシナリオで特に顕著です。 これを解決するために、ソースドメインへの過度な適合を効果的に回避する自己教師型学習パラダイムからインスピレーションを得る。 本稿では,補助的な復号化デコーダを基本U-Netアーキテクチャに組み込んだ新しい手法であるDenoising Y-Netを提案する。 補助デコーダは、ドメインの一般化を促進するドメイン不変表現を増強し、デノージングトレーニングを行うことを目標としている。 さらに、このパラダイムはラベルのないデータを利用する可能性を提供します。 デノイングトレーニングに基づいて、さらにDeTTA(Denoising Test Time Adaptation)を提案する。 (i)モデルをサンプル的に対象領域に適応させ、 (ii)ノイズ破損した入力に適応する。 広範に評価された肝セグメンテーションベンチマークで行った広範囲な実験は、他の方法と比較して、我々の基準値と最先端結果よりも大幅にドメインの一般化が向上したことを示している。 コードはhttps://github.com/WenRuxue/DeTTAで入手できる。

In medical image segmentation, domain generalization poses a significant challenge due to domain shifts caused by variations in data acquisition devices and other factors. These shifts are particularly pronounced in the most common scenario, which involves only single-source domain data due to privacy concerns. To address this, we draw inspiration from the self-supervised learning paradigm that effectively discourages overfitting to the source domain. We propose the Denoising Y-Net (DeY-Net), a novel approach incorporating an auxiliary denoising decoder into the basic U-Net architecture. The auxiliary decoder aims to perform denoising training, augmenting the domain-invariant representation that facilitates domain generalization. Furthermore, this paradigm provides the potential to utilize unlabeled data. Building upon denoising training, we propose Denoising Test Time Adaptation (DeTTA) that further: (i) adapts the model to the target domain in a sample-wise manner, and (ii) adapts to the noise-corrupted input. Extensive experiments conducted on widely-adopted liver segmentation benchmarks demonstrate significant domain generalization improvements over our baseline and state-of-the-art results compared to other methods. Code is available at https://github.com/WenRuxue/DeTTA.
翻訳日:2023-11-06 16:40:57 公開日:2023-11-03
# 学習相関潜在空間によるベイズ最適化の進展

Advancing Bayesian Optimization via Learning Correlated Latent Space ( http://arxiv.org/abs/2310.20258v2 )

ライセンス: Link先を確認
Seunghun Lee, Jaewon Chu, Sihyeon Kim, Juyeon Ko, Hyunwoo J. Kim(参考訳) ベイズ最適化は機能評価を限定したブラックボックス関数を最適化する強力な手法である。 近年の研究では、可変オートエンコーダのような深い生成モデルによる潜在空間での最適化は、構造化データや離散データのベイズ最適化を効果的かつ効率的に導くことが示されている。 しかし、最適化は入力空間では行われないので、潜在的に最適でない解をもたらす固有のギャップに繋がる。 この差を緩和するために,潜在空間の距離と目的関数内の距離との強い相関関係を特徴とする関連潜時空間の学習に焦点を当てた相関潜時空間ベイズ最適化(CoBO)を提案する。 特に,本手法では,期待領域周辺の固有ギャップを最小限に抑えるために,リプシッツ正則化,損失重み付け,信頼領域調整を導入する。 分子設計や算術式適合などの離散データにおける複数の最適化タスクにおいて,提案手法の有効性を実証し,少ない予算で高い性能を実現する。

Bayesian optimization is a powerful method for optimizing black-box functions with limited function evaluations. Recent works have shown that optimization in a latent space through deep generative models such as variational autoencoders leads to effective and efficient Bayesian optimization for structured or discrete data. However, as the optimization does not take place in the input space, it leads to an inherent gap that results in potentially suboptimal solutions. To alleviate the discrepancy, we propose Correlated latent space Bayesian Optimization (CoBO), which focuses on learning correlated latent spaces characterized by a strong correlation between the distances in the latent space and the distances within the objective function. Specifically, our method introduces Lipschitz regularization, loss weighting, and trust region recoordination to minimize the inherent gap around the promising areas. We demonstrate the effectiveness of our approach on several optimization tasks in discrete data, such as molecule design and arithmetic expression fitting, and achieve high performance within a small budget.
翻訳日:2023-11-06 16:40:36 公開日:2023-11-03
# 腹部大動脈造影における造影剤によるCT密度の決定的成分 : 概念的考察

Contrast-agent-induced deterministic component of CT-density in the abdominal aorta during routine angiography: proof of concept study ( http://arxiv.org/abs/2310.20243v2 )

ライセンス: Link先を確認
Maria R. Kodenko, Yuriy A. Vasilev, Nicholas S. Kulberg, Andrey V. Samorodov, Anton V. Vladzimirskyy, Olga V. Omelyanskaya and Roman V. Reshetnikov(参考訳) 背景と目的: CTAは腹部大動脈の術前診断における金の基準であり、通常は幾何学的特徴抽出に用いられる。 血管内コントラスト剤の動的挙動を記述するモデルが,CTAの定期的な研究データから開発できると仮定し,追加の灌流CT研究を必要とせず,その手順を検討・最適化することができると仮定した。 CAの取得した空間分布は、特定の研究の診断値の増大とCTデータ処理ツールの改善の両方に有用である。 方法:Beer-Lambert法と血液とCAの化学相互作用の欠如に基づき,CT信号密度に決定論的CA誘発成分が存在することを仮定した。 二重シグモイド構造を有するモデルでは, 血行力学特性に関連する6つの係数を含む。 このモデルを検証するために,公開ソースから取得したctaデータに対して,3次元スライサアプリケーションを用いてエキスパートセグメンテーションを行った。 このモデルは、レベンベルク・マーカルト最適化を用いた非線形最小二乗法を用いてデータに適合した。 結果: 594 CTA画像(中央値144スライス, IQR [134; 158.5]; 1:1正常:病理学的バランス)を解析した。 適合性の良さはウィルコックス試験(p-値 > 0.05)によって証明された。 提案モデルでは局所異常(動脈瘤,血栓,動脈分岐)による正常血流および血行動態障害を正しくシミュレーションした。 結論: 提案手法は, 船舶のCAモデリング, CTA画像処理の改善, 人工知能のための合成CTトレーニングデータの作成に有用である。

Background and objective: CTA is a gold standard of preoperative diagnosis of abdominal aorta and typically used for geometric-only characteristic extraction. We assume that a model describing the dynamic behavior of the contrast agent in the vessel can be developed from the data of routine CTA studies, allowing the procedure to be investigated and optimized without the need for additional perfusion CT studies. Obtained spatial distribution of CA can be valuable for both increasing the diagnostic value of a particular study and improving the CT data processing tools. Methods: In accordance with the Beer-Lambert law and the absence of chemical interaction between blood and CA, we postulated the existence of a deterministic CA-induced component in the CT signal density. The proposed model, having a double-sigmoid structure, contains six coefficients relevant to the properties of hemodynamics. To validate the model, expert segmentation was performed using the 3D Slicer application for the CTA data obtained from publicly available source. The model was fitted to the data using the non-linear least square method with Levenberg-Marquardt optimization. Results: We analyzed 594 CTA images (4 studies with median size of 144 slices, IQR [134; 158.5]; 1:1 normal:pathology balance). Goodness-of-fit was proved by Wilcox test (p-value > 0.05 for all cases). The proposed model correctly simulated normal blood flow and hemodynamics disturbances caused by local abnormalities (aneurysm, thrombus and arterial branching). Conclusions: Proposed approach can be useful for personalized CA modeling of vessels, improvement of CTA image processing and preparation of synthetic CT training data for artificial intelligence.
翻訳日:2023-11-06 16:40:20 公開日:2023-11-03
# 臨床要約におけるファクチュアルアライメントのための合成模倣編集フィードバック

Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization ( http://arxiv.org/abs/2310.20033v2 )

ライセンス: Link先を確認
Prakamya Mishra, Zonghai Yao, Shuwei Chen, Beining Wang, Rohan Mittal, Hong Yu(参考訳) GPTやLLaMAファミリーのような大規模言語モデル(LLM)は、重要な文脈情報をキャプチャし、凝縮し、要約タスクで最先端のパフォーマンスを達成するという、例外的な能力を示している。 しかし、これらのモデルの幻覚に関するコミュニティの懸念は高まり続けている。 LLMは、実際に幻覚化された要約を生成することがあるが、これは臨床領域のNLPタスク(例えば、臨床メモの要約)において非常に有害である。 ヒトのフィードバックを用いた微調整LSMは、世代間でLLMを実際に整合させるという約束を示しているが、そのような訓練には高品質な人間注釈データが必要である。 本研究では, 臨床ノート要約タスクにおいて, 品質の高いフィードバックデータを生成するために, 人間の専門家の代わりにchatgptを用いた新しいパイプラインを提案する。 近年の研究では、複雑な状況(専門知識を必要とする臨床NLPタスクなど)における優先的なフィードバックによる人間のアライメントの欠点や、ドメインの専門家による編集フィードバックの収集の利点について論じている。 加えて、GPTは多くの臨床NLPタスク(例えばUSMLE QA)で専門家レベルに達したが、臨床ノート要約タスクにおいて、GPTが専門家レベルの編集フィードバックを生成できるかどうかを議論する以前の研究は少ない。 私たちはこのギャップを埋めたい。 最後に,人間のアライメントにおけるGPT編集の可能性,特に事実性の観点から評価した。

Large Language Models (LLMs) like the GPT and LLaMA families have demonstrated exceptional capabilities in capturing and condensing critical contextual information and achieving state-of-the-art performance in the summarization task. However, community concerns about these models' hallucination issues continue to rise. LLMs sometimes generate factually hallucinated summaries, which can be extremely harmful in the clinical domain NLP tasks (e.g., clinical note summarization), where factually incorrect statements can lead to critically erroneous diagnoses. Fine-tuning LLMs using human feedback has shown the promise of aligning LLMs to be factually consistent during generation, but such training procedure requires high-quality human-annotated data, which can be extremely expensive to get in the clinical domain. In this work, we propose a new pipeline using ChatGPT instead of human experts to generate high-quality feedback data for improving factual consistency in the clinical note summarization task. We focus specifically on edit feedback because recent work discusses the shortcomings of human alignment via preference feedback in complex situations (such as clinical NLP tasks that require extensive expert knowledge), as well as some advantages of collecting edit feedback from domain experts. In addition, although GPT has reached the expert level in many clinical NLP tasks (e.g., USMLE QA), there is not much previous work discussing whether GPT can generate expert-level edit feedback for LMs in the clinical note summarization task. We hope to fill this gap. Finally, our evaluations demonstrate the potential use of GPT edits in human alignment, especially from a factuality perspective.
翻訳日:2023-11-06 16:39:51 公開日:2023-11-03
# ゲージ同変非線形メッセージパッシングを用いたメッシュ上のモデリングダイナミクス

Modeling Dynamics over Meshes with Gauge Equivariant Nonlinear Message Passing ( http://arxiv.org/abs/2310.19589v2 )

ライセンス: Link先を確認
Jung Yeon Park, Lawson L.S. Wong, Robin Walters(参考訳) 非ユークリッド多様体上のデータは、しばしば表面メッシュとして離散化され、コンピュータグラフィックスや生物学的および物理的システムに自然に現れる。 特に、多様体上の偏微分方程式(PDE)の解は、基礎となる幾何学に批判的に依存する。 グラフニューラルネットワークはPDEにうまく適用されているが、曲面幾何学を取り入れておらず、多様体の局所ゲージ対称性を考慮していない。 あるいは、メッシュ上のゲージ同変畳み込みおよび注意アーキテクチャに関する最近の研究は、基礎となる幾何学を活用するが、複雑な非線形力学を持つ表面PDEのモデル化では不十分である。 これらの問題に対処するため、非線形メッセージパッシングを用いた新しいゲージ同変アーキテクチャを提案する。 我々の新しいアーキテクチャは、複雑で非線形なドメイン上の畳み込みネットワークや注意ネットワークよりも高い性能を実現する。 しかし、非メッシュの場合と同様に、設計上のトレードオフは、異なるタスクに対して畳み込み、注意、またはメッセージパッシングのネットワークを好む。

Data over non-Euclidean manifolds, often discretized as surface meshes, naturally arise in computer graphics and biological and physical systems. In particular, solutions to partial differential equations (PDEs) over manifolds depend critically on the underlying geometry. While graph neural networks have been successfully applied to PDEs, they do not incorporate surface geometry and do not consider local gauge symmetries of the manifold. Alternatively, recent works on gauge equivariant convolutional and attentional architectures on meshes leverage the underlying geometry but underperform in modeling surface PDEs with complex nonlinear dynamics. To address these issues, we introduce a new gauge equivariant architecture using nonlinear message passing. Our novel architecture achieves higher performance than either convolutional or attentional networks on domains with highly complex and nonlinear dynamics. However, similar to the non-mesh case, design trade-offs favor convolutional, attentional, or message passing networks for different tasks; we investigate in which circumstances our message passing method provides the most benefit.
翻訳日:2023-11-06 16:39:07 公開日:2023-11-03
# 強相互作用する局所量子場理論の量子シミュレーションのための効率的な真空状態形成

Efficient vacuum state preparation for quantum simulation of strongly interacting local quantum field theories ( http://arxiv.org/abs/2310.19229v2 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh(参考訳) 量子コンピュータ上で強相互作用する局所量子場理論の文脈で基底状態を作成するための効率的な手法を提案する。 このアルゴリズムは、解析的に計算可能な系の基底状態から始まり、パラメータ空間の経路に沿って基底状態を維持しながらハミルトニアンのパラメータを興味のあるものへと発展させるという、従来の断熱的状態形成技術や量子ゼノ効果に基づく方法と同じクラスに属する。 このアプローチでは、体積の平方根に比例する時間内に真空状態を生成する。 提案手法は,パラメータ空間で適切に定義された経路長とともに資源が線形にスケールするパラメータ空間内の経路をトラバースする新しい手法を利用する。 現実的な制限によるエラーは抑制され、沿道の世俗的な成長は見られない。 最終的な精度は、体積に依存しない付加コストで任意に向上することができ、生成した状態と正確な基底状態との重なりによって対数的に増加する。

An efficient approach for preparing ground states in the context of strongly interacting local quantum field theories on quantum computers is presented. The algorithm belongs to the same class as traditional adiabatic state preparation techniques and methods based on quantum Zeno effect in that it starts with a ground state of an analytically calculable system and evolves the parameters of the Hamiltonian to the one of interest while maintaining the ground state along the path in parameter space. The approach produces the vacuum state in a time proportional to the square-root of the volume, which is a square-root improvement in speed compared to traditional approaches. The approach exploits a novel method for traversing the path in parameter space in which the resources scale linearly with a path length suitably defined in parameter space. Errors due to practical limitations are controlled and do not exhibit secular growth along the path. The final accuracy can be arbitrarily improved with an additive cost, which is independent of the volume and grows slower than logarithmically with the overlap between the state produced and the exact ground state.
翻訳日:2023-11-06 16:38:50 公開日:2023-11-03
# JEN-1 Composer:高忠実なマルチトラック音楽生成のための統一フレームワーク

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation ( http://arxiv.org/abs/2310.19180v2 )

ライセンス: Link先を確認
Yao Yao, Peike Li, Boyu Chen, Alex Wang(参考訳) 生成人工知能の急速な進歩により、テキストから音楽への合成作業がスクラッチから音楽を生成する上で有望な方向として登場した。 しかし、マルチトラック生成に対するきめ細かい制御は未解決の課題である。 既存のモデルは、強力な生生成能力を示すが、人間の作曲家の典型的なワークフローとは異なる、別々のトラックを構成し、それらを制御可能な方法で組み合わせる柔軟性に欠ける。 本研究では,単一モデルによるマルチトラック音楽の限界,条件,ジョイント分布を効率的にモデル化するための統合フレームワークであるjen-1 composerを提案する。 JEN-1 Composerフレームワークは、任意の拡散ベースの音楽生成システムである『textit{e.} Jen-1』をシームレスに組み込む能力を示し、多目的なマルチトラック音楽生成能力を高める。 単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。 推論中、ユーザーは好みを満たす楽曲を反復的に作成、選択でき、その後、提案されたHuman-AI共作ワークフローに従って楽曲全体を段階的に作成することができる。 定量的・質的な評価は、制御可能かつ高忠実なマルチトラック音楽合成における最先端の性能を示す。 提案したJEN-1 Composerは、対話型AIによる音楽制作と作曲に向けた大きな進歩を示している。 デモはhttps://www.jenmusic.ai/audio-demosで見ることができる。

With rapid advances in generative artificial intelligence, the text-to-music synthesis task has emerged as a promising direction for music generation from scratch. However, finer-grained control over multi-track generation remains an open challenge. Existing models exhibit strong raw generation capability but lack the flexibility to compose separate tracks and combine them in a controllable manner, differing from typical workflows of human composers. To address this issue, we propose JEN-1 Composer, a unified framework to efficiently model marginal, conditional, and joint distributions over multi-track music via a single model. JEN-1 Composer framework exhibits the capacity to seamlessly incorporate any diffusion-based music generation system, \textit{e.g.} Jen-1, enhancing its capacity for versatile multi-track music generation. We introduce a curriculum training strategy aimed at incrementally instructing the model in the transition from single-track generation to the flexible generation of multi-track combinations. During the inference, users have the ability to iteratively produce and choose music tracks that meet their preferences, subsequently creating an entire musical composition incrementally following the proposed Human-AI co-composition workflow. Quantitative and qualitative assessments demonstrate state-of-the-art performance in controllable and high-fidelity multi-track music synthesis. The proposed JEN-1 Composer represents a significant advance toward interactive AI-facilitated music creation and composition. Demos will be available at https://www.jenmusic.ai/audio-demos.
翻訳日:2023-11-06 16:38:30 公開日:2023-11-03
# AnomalyCLIP:ゼロショット異常検出のための物体認識型プロンプト学習

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2310.18961v2 )

ライセンス: Link先を確認
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen(参考訳) ゼロショット異常検出(ZSAD)は、ターゲットデータセットのトレーニングサンプルなしで異常を検出するために補助データを使用してトレーニングされた検出モデルを必要とする。 データプライバシなどさまざまな懸念があるため、データのトレーニングがアクセスできない場合、重要なタスクですが、前景オブジェクトや異常領域、さまざまな製品や組織における欠陥や腫瘍などのバックグラウンド特徴の出現が著しく変化するような、さまざまなドメインの異常に一般化する必要があるため、非常に難しいのです。 近年,クリップなどの大規模事前学習型視覚言語モデル(vlms)が,異常検出を含む様々な視覚課題において強いゼロショット認識能力を示している。 しかし、VLMは画像の異常や異常ではなく、前景オブジェクトのクラスセマンティクスをモデル化することに重点を置いているため、ZSAD性能は弱い。 本稿では、AnomalyCLIPと呼ばれる新しいアプローチを導入し、CLIPを異なる領域にわたる正確なZSADに適用する。 AnomalyCLIPの重要な洞察は、オブジェクトに依存しないテキストのプロンプトを学習し、前景のオブジェクトに関係なく画像の一般的な正規性と異常を捉えることである。 これにより、モデルがオブジェクトのセマンティクスよりも異常な画像領域に焦点を合わせ、様々な種類のオブジェクトに対する一般化された正規性と異常認識を可能にします。 17の現実世界の異常検出データセットに関する大規模実験では、様々な欠陥検査や医療画像領域からの多種多様なクラスセマンティクスのデータセットにおいて、異常を検出および分割する優れたゼロショット性能が得られた。 コードはhttps://github.com/zqhang/AnomalyCLIPで公開される。

Zero-shot anomaly detection (ZSAD) requires detection models trained using auxiliary data to detect anomalies without any training sample in a target dataset. It is a crucial task when training data is not accessible due to various concerns, \eg, data privacy, yet it is challenging since the models need to generalize to anomalies across different domains where the appearance of foreground objects, abnormal regions, and background features, such as defects/tumors on different products/organs, can vary significantly. Recently large pre-trained vision-language models (VLMs), such as CLIP, have demonstrated strong zero-shot recognition ability in various vision tasks, including anomaly detection. However, their ZSAD performance is weak since the VLMs focus more on modeling the class semantics of the foreground objects rather than the abnormality/normality in the images. In this paper we introduce a novel approach, namely AnomalyCLIP, to adapt CLIP for accurate ZSAD across different domains. The key insight of AnomalyCLIP is to learn object-agnostic text prompts that capture generic normality and abnormality in an image regardless of its foreground objects. This allows our model to focus on the abnormal image regions rather than the object semantics, enabling generalized normality and abnormality recognition on diverse types of objects. Large-scale experiments on 17 real-world anomaly detection datasets show that AnomalyCLIP achieves superior zero-shot performance of detecting and segmenting anomalies in datasets of highly diverse class semantics from various defect inspection and medical imaging domains. Code will be made available at https://github.com/zqhang/AnomalyCLIP.
翻訳日:2023-11-06 16:38:07 公開日:2023-11-03
# bayes beatsクロス検証:期待最大化による効率的かつ正確なリッジ回帰

Bayes beats Cross Validation: Efficient and Accurate Ridge Regression via Expectation Maximization ( http://arxiv.org/abs/2310.18860v2 )

ライセンス: Link先を確認
Shu Yu Tew, Mario Boley, Daniel F. Schmidt(参考訳) 本稿では,リッジ回帰の正則化ハイパーパラメータである$\lambda$のチューニング法を提案する。locvよりも計算が早いが,locvのリスクを最小化することで得られた値よりも,回帰パラメータが均等で,特にスパース共変量の設定において優れた品質を推定できる。 LOOCVのリスクは、有限$n$で複数の悪いローカルミニマに悩まされる可能性があるため、良いソリューションを提供できない候補$\lambda$のセットの仕様が必要である。 これとは対照的に,提案手法は比較的穏やかな条件下で,過度パラメータの特定が困難になることなく,十分大きな$n$に対して一意に最適解を求めることが保証されている。 これはベイジアンによるリッジ回帰の定式化に基づいており、これは十分大きい$n$に対して一様後方を持つことを証明し、最適$\lambda$と回帰係数の両方を反復期待最大化(EM)手順で共同で学習することができる。 重要なことは、適切な前処理ステップを利用することで、$n$行と$p$列を持つ入力データに対して、メインEMループの単一イテレーションを$O(\min(n, p))$演算で実装できることである。 対照的に、高速loocvを使った$\lambda$の1つの値の評価は、同じ前処理を使用する場合、$o(n \min(n, p))$演算がかかる。 この利点は、$l$が$\lambda$の候補値に対して$l$という漸近的な改善である(レジーム$qでは、p \in o(\sqrt{n})$ ここで$q$は回帰ターゲットの数である)。

We present a novel method for tuning the regularization hyper-parameter, $\lambda$, of a ridge regression that is faster to compute than leave-one-out cross-validation (LOOCV) while yielding estimates of the regression parameters of equal, or particularly in the setting of sparse covariates, superior quality to those obtained by minimising the LOOCV risk. The LOOCV risk can suffer from multiple and bad local minima for finite $n$ and thus requires the specification of a set of candidate $\lambda$, which can fail to provide good solutions. In contrast, we show that the proposed method is guaranteed to find a unique optimal solution for large enough $n$, under relatively mild conditions, without requiring the specification of any difficult to determine hyper-parameters. This is based on a Bayesian formulation of ridge regression that we prove to have a unimodal posterior for large enough $n$, allowing for both the optimal $\lambda$ and the regression coefficients to be jointly learned within an iterative expectation maximization (EM) procedure. Importantly, we show that by utilizing an appropriate preprocessing step, a single iteration of the main EM loop can be implemented in $O(\min(n, p))$ operations, for input data with $n$ rows and $p$ columns. In contrast, evaluating a single value of $\lambda$ using fast LOOCV costs $O(n \min(n, p))$ operations when using the same preprocessing. This advantage amounts to an asymptotic improvement of a factor of $l$ for $l$ candidate values for $\lambda$ (in the regime $q, p \in O(\sqrt{n})$ where $q$ is the number of regression targets).
翻訳日:2023-11-06 16:37:36 公開日:2023-11-03
# 定常目標作成による内在的探索の改善

Improving Intrinsic Exploration by Creating Stationary Objectives ( http://arxiv.org/abs/2310.18144v2 )

ライセンス: Link先を確認
Roger Creus Castanyer, Joshua Romoff, Glen Berseth(参考訳) 特注的目標の定義による強化学習ガイドの長期探索における探索ボーナス カウントベースの方法は、国家訪問の頻度を使って探索ボーナスを導出する。 本稿では,カウントベース法から導出される固有報酬関数が非定常であることから,エージェントの最適化が困難であることを示す。 我々の研究の重要な貢献は、拡張状態表現を通じて、元の非定常報酬を定常報酬に変換することである。 そこで本研究では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。 SOFEは、異なる探索ボーナスに対する十分な統計を識別し、深層ネットワークへの入力として使用するためにこれらの統計の効率的な符号化を見つける必要がある。 SOFEは状態空間を拡大するが、エージェントの目的の最適化を単純化するという約束を守る状態拡張の提案に基づいている。 実験の結果, sofeは, スパースリワードタスク, ピクセルベースの観測, 3次元ナビゲーション, 手続き的生成環境など, 探索課題におけるエージェントの性能が向上した。

Exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Count-based methods use the frequency of state visits to derive an exploration bonus. In this paper, we identify that any intrinsic reward function derived from count-based methods is non-stationary and hence induces a difficult objective to optimize for the agent. The key contribution of our work lies in transforming the original non-stationary rewards into stationary rewards through an augmented state representation. For this purpose, we introduce the Stationary Objectives For Exploration (SOFE) framework. SOFE requires identifying sufficient statistics for different exploration bonuses and finding an efficient encoding of these statistics to use as input to a deep network. SOFE is based on proposing state augmentations that expand the state space but hold the promise of simplifying the optimization of the agent's objective. Our experiments show that SOFE improves the agents' performance in challenging exploration problems, including sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally generated environments.
翻訳日:2023-11-06 16:36:59 公開日:2023-11-03
# 文法習得のための発達データを用いたカリキュラム学習の効果について

On the effect of curriculum learning with developmental data for grammar acquisition ( http://arxiv.org/abs/2311.00128v2 )

ライセンス: Link先を確認
Mattia Opper, J. Morrison, N. Siddharth(参考訳) 本研究は、文法習得が「単純化」言語とデータのソースモダリティ(音声対テキスト)によって駆動される程度を考察する。 BabyBERTaをプローブとして用いると、文法習得は主に音声データへの露出、特にBabyLMトレーニングコーパスであるAO-ChildesとOpen Subtitlesの2つの露出によるものであることが分かる。 モデルに入力データを提示するさまざまな方法を調べることで、この発見にたどり着きます。 まず、様々なシーケンスレベルの複雑性に基づくカリキュラムの影響を評価する。 次に、各ソースコーパス(行数ではなく)のトークン数に対してバランスのとれたテキストのスパンをカバーする、‘ブロック’に対する学習の影響を調べます。 最後に、モデルが異なるコーパスに曝される程度が異なる曲線を探索する。 いずれにしても、AO-ChildesやOpen Subtitlesへの過剰な露出はパフォーマンスを著しく向上させる。 コーパスに曝露し、より一般的には、設計によって制限されるような、比較可能な制御データセットを用いてこれらの結果を検証する。 本研究は,高ユーティリティデータに占めるトークンの割合ではなく,そのようなデータに割り当てられたトレーニングステップの割合であることを示す。 これは、より発達的に妥当な言語データ(より少ない傾向にある)を使用して、汎用的な事前訓練体制を強化するための将来の研究を促進することを願っている。

This work explores the degree to which grammar acquisition is driven by language `simplicity' and the source modality (speech vs. text) of data. Using BabyBERTa as a probe, we find that grammar acquisition is largely driven by exposure to speech data, and in particular through exposure to two of the BabyLM training corpora: AO-Childes and Open Subtitles. We arrive at this finding by examining various ways of presenting input data to our model. First, we assess the impact of various sequence-level complexity based curricula. We then examine the impact of learning over `blocks' -- covering spans of text that are balanced for the number of tokens in each of the source corpora (rather than number of lines). Finally, we explore curricula that vary the degree to which the model is exposed to different corpora. In all cases, we find that over-exposure to AO-Childes and Open Subtitles significantly drives performance. We verify these findings through a comparable control dataset in which exposure to these corpora, and speech more generally, is limited by design. Our findings indicate that it is not the proportion of tokens occupied by high-utility data that aids acquisition, but rather the proportion of training steps assigned to such data. We hope this encourages future research into the use of more developmentally plausible linguistic data (which tends to be more scarce) to augment general purpose pre-training regimes.
翻訳日:2023-11-06 16:25:52 公開日:2023-11-03
# エンサンブルモデルによる超音速流れの演算子学習における単一モデル不確実性と予測

Ensemble models outperform single model uncertainties and predictions for operator-learning of hypersonic flows ( http://arxiv.org/abs/2311.00060v2 )

ライセンス: Link先を確認
Victor J. Leon, Noah Ford, Honest Mrema, Jeffrey Gilbert, Alexander New(参考訳) 高忠実度計算シミュレーションと超音速流れの物理実験は資源集約的である。 限られた高忠実度データに基づく科学機械学習(SciML)モデルのトレーニングは、これまで見たことのない状況に対する行動の迅速な予測方法を提供する。 しかし、高忠実度データは、scimlモデルのすべての出力を未探索の入力空間で検証するために、それ自体は限られた量である。 そのため、不確実性を考慮したSciMLモデルが望まれる。 SciMLモデルの出力の不確実性は、モデルの予測の信頼性と信頼性を評価するために使用できる。 本研究では,3つの異なる不確実性定量化機構を用いて,DeepONetを拡張した。 不確実性を認識したDeepONetモデルは、幅広いマッハ数と高度の計算流体力学を用いて、鈍い円錐物体の周りの超音速流れを訓練し、評価する。 エンセンスリングは他の2つの不確実性モデルよりも誤差を最小化し、補間的および外挿的両方の不確実性を校正する点で優れていることが判明した。

High-fidelity computational simulations and physical experiments of hypersonic flows are resource intensive. Training scientific machine learning (SciML) models on limited high-fidelity data offers one approach to rapidly predict behaviors for situations that have not been seen before. However, high-fidelity data is itself in limited quantity to validate all outputs of the SciML model in unexplored input space. As such, an uncertainty-aware SciML model is desired. The SciML model's output uncertainties could then be used to assess the reliability and confidence of the model's predictions. In this study, we extend a DeepONet using three different uncertainty quantification mechanisms: mean-variance estimation, evidential uncertainty, and ensembling. The uncertainty aware DeepONet models are trained and evaluated on the hypersonic flow around a blunt cone object with data generated via computational fluid dynamics over a wide range of Mach numbers and altitudes. We find that ensembling outperforms the other two uncertainty models in terms of minimizing error and calibrating uncertainty in both interpolative and extrapolative regimes.
翻訳日:2023-11-06 16:24:29 公開日:2023-11-03
# vqpy: 現代のビデオ分析へのオブジェクト指向アプローチ

VQPy: An Object-Oriented Approach to Modern Video Analytics ( http://arxiv.org/abs/2311.01623v1 )

ライセンス: Link先を確認
Shan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang, Arthi Padmanabhan, Hugo Latapie, Harry Xu(参考訳) ビデオ分析は現代のシステムやサービスで広く使われている。 ビデオ分析の最前線は、ユーザーが興味のあるオブジェクトを見つけるために開発するビデオクエリーだ。 ビデオ分析の中心である映像オブジェクト(人間、動物、車など)は、従来のオブジェクト指向言語でモデル化されたオブジェクトと精神的に類似しているという知見に基づいて、ビデオ分析に対するオブジェクト指向アプローチを開発することを提案する。 vqpyと名付けられたこのアプローチは、ビデオオブジェクトとそのインタラクションをユーザが簡単に表現できる構造を備えたpythonのフロントエンド$\unicode{x2015}$と、ビデオオブジェクトに基づいたパイプラインの自動構築と最適化が可能な拡張可能なバックエンドで構成されている。 私たちは、DeepVisionフレームワークの一部としてCiscoで製品化されているVQPyを実装、オープンソース化しました。

Video analytics is widely used in contemporary systems and services. At the forefront of video analytics are video queries that users develop to find objects of particular interest. Building upon the insight that video objects (e.g., human, animals, cars, etc.), the center of video analytics, are similar in spirit to objects modeled by traditional object-oriented languages, we propose to develop an object-oriented approach to video analytics. This approach, named VQPy, consists of a frontend$\unicode{x2015}$a Python variant with constructs that make it easy for users to express video objects and their interactions$\unicode{x2015}$as well as an extensible backend that can automatically construct and optimize pipelines based on video objects. We have implemented and open-sourced VQPy, which has been productized in Cisco as part of its DeepVision framework.
翻訳日:2023-11-06 15:51:40 公開日:2023-11-03
# 相互接続型社会・技術システム機能に基づく深層学習型コミュニティレジリエンスレーティング

Deep Learning-driven Community Resilience Rating based on Intertwined Socio-Technical Systems Features ( http://arxiv.org/abs/2311.01661v1 )

ライセンス: Link先を確認
Kai Yin, Ali Mostafavi(参考訳) コミュニティ・レジリエンス(community resilience)は、異なる社会工学システム間の複雑で非線形な相互作用と、そのレジリエンス特性から生じる、複雑で変異した現象である。 しかし, コミュニティのレジリエンスに関する研究は, 主に脆弱性評価に焦点をあて, 指標に基づくアプローチを活用し, コミュニティ社会技術システムにおける不均一な特徴を捉える能力と, レジリエンスの堅牢性, 冗長性, リソースフルネスの構成要素を形成する上での非線形相互作用を限定した。 このギャップに対処するため,コミュニティレジリエンス評価(Resili-Net)のための3層深層学習モデルを提案する。 12の計測可能なレジリエンスの特徴は、堅牢性、冗長性、資源性の3つのレジリエンスコンポーネントに関連する社会技術システム(施設、インフラ、社会)の中で特定され、計算される。 resili-netは、米国の複数の大都市統計地域からの公開アクセスデータを使用して、空間領域のレジリエンスレベルを5つの異なるレベルに特徴付ける。 モデル結果の解釈性は、各レジリエンスレベル内の領域におけるレジリエンスの決定要因を特定するための特徴解析を可能にし、特定のレジリエンス強化戦略の特定を可能にする。 都市開発パターンにおける地域社会のレジリエンスプロファイルの変化は,関連する社会技術システムの特徴の変化によってさらに検証される。 その結果, マシンインテリジェンスと異種都市ビッグデータを活用することにより, コミュニティのレジリエンス評価の新しい視点が得られた。

Community resilience is a complex and muti-faceted phenomenon that emerges from complex and nonlinear interactions among different socio-technical systems and their resilience properties. However, present studies on community resilience focus primarily on vulnerability assessment and utilize index-based approaches, with limited ability to capture heterogeneous features within community socio-technical systems and their nonlinear interactions in shaping robustness, redundancy, and resourcefulness components of resilience. To address this gap, this paper presents an integrated three-layer deep learning model for community resilience rating (called Resili-Net). Twelve measurable resilience features are specified and computed within community socio-technical systems (i.e., facilities, infrastructures, and society) related to three resilience components of robustness, redundancy, and resourcefulness. Using publicly accessible data from multiple metropolitan statistical areas in the United States, Resili-Net characterizes the resilience levels of spatial areas into five distinct levels. The interpretability of the model outcomes enables feature analysis for specifying the determinants of resilience in areas within each resilience level, allowing for the identification of specific resilience enhancement strategies. Changes in community resilience profiles under urban development patterns are further examined by changing the value of related socio-technical systems features. Accordingly, the outcomes provide novel perspectives for community resilience assessment by harnessing machine intelligence and heterogeneous urban big data.
翻訳日:2023-11-06 15:39:38 公開日:2023-11-03
# 重要サンプリングを用いたフレキシブルサバイバル密度の最大推定

Maximum Likelihood Estimation of Flexible Survival Densities with Importance Sampling ( http://arxiv.org/abs/2311.01660v1 )

ライセンス: Link先を確認
Mert Ketenci and Shreyas Bhave and No\'emie Elhadad and Adler Perotte(参考訳) 生存分析(Survival analysis)は、検閲の有無で時間から時間までのデータを分析するための広く使われている手法である。 近年,大規模なデータセットにスケールし,比例ハザードなどの従来の仮定を緩和するサバイバル分析手法が数多く登場している。 これらのモデルは、パフォーマンスを保ちながら、モデルハイパーパラメータに非常に敏感である:(1)離散モデルのビン数とビンサイズ、(2)混合ベースのモデルのクラスタ割り当て数。 それぞれの選択は、最適なパフォーマンスを達成するために、実践者による広範囲なチューニングを必要とする。 さらに,(1) 最適ビンサイズは, 関心度(例えば, 一致対ブライアスコア)に基づいて大きく異なる場合があること,(2) 混合モデルがモード崩壊や数値不安定に悩まされていること,などが実証実験で示された。 本研究では,混合代入やビンサイズなどのハイパーパラメータを調整する必要をなくし,実践者の負担を軽減するサバイバル分析手法を提案する。 提案手法は,複数の実世界のデータセットのベースラインに一致するか,あるいは優れることを示す。

Survival analysis is a widely-used technique for analyzing time-to-event data in the presence of censoring. In recent years, numerous survival analysis methods have emerged which scale to large datasets and relax traditional assumptions such as proportional hazards. These models, while being performant, are very sensitive to model hyperparameters including: (1) number of bins and bin size for discrete models and (2) number of cluster assignments for mixture-based models. Each of these choices requires extensive tuning by practitioners to achieve optimal performance. In addition, we demonstrate in empirical studies that: (1) optimal bin size may drastically differ based on the metric of interest (e.g., concordance vs brier score), and (2) mixture models may suffer from mode collapse and numerical instability. We propose a survival analysis approach which eliminates the need to tune hyperparameters such as mixture assignments and bin sizes, reducing the burden on practitioners. We show that the proposed approach matches or outperforms baselines on several real-world datasets.
翻訳日:2023-11-06 15:39:09 公開日:2023-11-03
# ニューラルラミアンスフィールドのための効率的なクラウドパイプライン

Efficient Cloud Pipelines for Neural Radiance Fields ( http://arxiv.org/abs/2311.01659v1 )

ライセンス: Link先を確認
Derek Jacoby, Donglin Xu, Weder Ribas, Minyi Xu, Ting Liu, Vishwanath Jayaraman, Mengdi Wei, Emma De Blois, Yvonne Coady(参考訳) 2020年に導入されて以来、Neural Radiance Fields (NeRF) はコンピュータビジョンのコミュニティを嵐にさらしてきた。 これらは、拡張現実(xr)アプリケーションや仮想生産などの創造的な取り組みや、地理空間分析における変化検出操作に理想的なシーンやオブジェクトのマルチビュー表現を提供する。 しかし、これらの生成AIモデルの計算コストは非常に高く、NeRFを生成するためのクラウドパイプラインの構築は、クライアントアプリケーションにおけるその可能性を実現する上で必要である。 本稿では,高性能なアカデミックコンピューティングクラスタ上にパイプラインを配置し,microsoft azure上に実装したパイプラインと比較する。 その過程で,新しいユーザインタラクションシナリオを実現するためのNeRFの利用について述べる。

Since their introduction in 2020, Neural Radiance Fields (NeRFs) have taken the computer vision community by storm. They provide a multi-view representation of a scene or object that is ideal for eXtended Reality (XR) applications and for creative endeavors such as virtual production, as well as change detection operations in geospatial analytics. The computational cost of these generative AI models is quite high, however, and the construction of cloud pipelines to generate NeRFs is neccesary to realize their potential in client applications. In this paper, we present pipelines on a high performance academic computing cluster and compare it with a pipeline implemented on Microsoft Azure. Along the way, we describe some uses of NeRFs in enabling novel user interaction scenarios.
翻訳日:2023-11-06 15:38:50 公開日:2023-11-03
# プログラマブル量子アニーラを用いたヘックス横磁界イジングモデル磁化ダイナミクスのシミュレーション

Simulating Heavy-Hex Transverse Field Ising Model Magnetization Dynamics Using Programmable Quantum Annealers ( http://arxiv.org/abs/2311.01657v1 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz(参考訳) 近年,ZNE量子誤差緩和法を用いて,127量子ビット重ヘキシIBM量子アーキテクチャに固有の接続グラフを持つ強磁性体2次元横磁場Isingモデル上でハミルトン動力学シミュレーションを行った。 本研究では,現在の超伝導量子ビット系プログラマブル量子アニールコンピュータ上での磁化を効率的にシミュレートできることを実証する。 これを逆量子アニーリングとh-gain状態エンコーディングという2つの異なる手法で示す。 このシミュレーションは、D-Wave Pegasus量子アニールのハードウェアグラフに127量子ビット重ヘックス接続グラフをネイティブに埋め込むことができ、2種類の量子コンピュータのエネルギースケールの間に直接同値性が存在するため可能である。 我々は、量子アニーリングプロセッサを用いて、rx回転の異なる $\theta_h \in (0, \frac{\pi}{2}]$ に対するトロッタ化量子回路ダイナミクスをシミュレートするために等価なアニーポーズを導出する。 関心のあるイジングモデルの複数の異種インスタンスをd波ペガサスハードウェアグラフに埋め込むことができ、並列量子アニーリングが可能となる。 20から50から10,000までの時間ステップにおける量子アニールを用いた等価磁化ダイナミクスを報告するが、これは古典的な27量子ビット重水素化トロッター化回路磁化ダイナミクスと一致する。 量子アンネラは数千の時間ステップで等価磁化力学をシミュレートすることができ、元々のハミルトニアン力学シミュレーションが実行されたデジタル量子コンピュータの計算範囲からかなり離れている。

Recently, a Hamiltonian dynamics simulation was performed on a kicked ferromagnetic 2D transverse field Ising model with a connectivity graph native to the 127 qubit heavy-hex IBM Quantum architecture using ZNE quantum error mitigation. We demonstrate that one of the observables in this Trotterized Hamiltonian dynamics simulation, namely magnetization, can be efficiently simulated on current superconducting qubit-based programmable quantum annealing computers. We show this using two distinct methods: reverse quantum annealing and h-gain state encoding. This simulation is possible because the 127 qubit heavy-hex connectivity graph can be natively embedded onto the D-Wave Pegasus quantum annealer hardware graph and because there exists a direct equivalence between the energy scales of the two types of quantum computers. We derive equivalent anneal pauses in order to simulate the Trotterized quantum circuit dynamics for varying Rx rotations $\theta_h \in (0, \frac{\pi}{2}]$, using quantum annealing processors. Multiple disjoint instances of the Ising model of interest can be embedded onto the D-Wave Pegasus hardware graph, allowing for parallel quantum annealing. We report equivalent magnetization dynamics using quantum annealing for time steps of 20, 50 up to 10,000, which we find are consistent with exact classical 27 qubit heavy-hex Trotterized circuit magnetization dynamics, and we observe reasonable, albeit noisy, agreement with the existing simulations for single site magnetization at 20 Trotter steps. The quantum annealers are able to simulate equivalent magnetization dynamics for thousands of time steps, significantly out of the computational reach of the digital quantum computers on which the original Hamiltonian dynamics simulations were performed.
翻訳日:2023-11-06 15:38:40 公開日:2023-11-03
# 実・AI生成画像分類におけるロバストな視覚概念による純粋相関の検出

Detecting Spurious Correlations via Robust Visual Concepts in Real and AI-Generated Image Classification ( http://arxiv.org/abs/2311.01655v1 )

ライセンス: Link先を確認
Preetam Prabhu Srikar Dammu, Chirag Shah(参考訳) 機械学習モデルは、その妥当性や適切性に疑問を呈することなく、トレーニングデータに存在する関連を自動的に学習する傾向がある。 この望ましくない性質はスプリアス相関の出現の根本原因であり、これはモデルが信頼できず、分布シフトの存在下で失敗する傾向がある。 研究によると、スプリアス相関を治療しようとするほとんどの方法は、モデルの既知のスプリアス関連にのみ有効である。 現在のスプリアス相関検出アルゴリズムは、広範囲の人間の注釈に依存するか、あるいはその定式化に制限的すぎる。 さらに、それらは、生成モデルによって生成されたデータには適用できないような視覚的アーティファクトの厳密な定義に依存しており、標準仕様に準拠しないコンテンツを幻覚させることが知られている。 本研究では, 潜在的にスプリアスな相関を効率的に検出し, 先行技術に比べて人的干渉を有意に少なくする汎用手法を提案する。 さらに,提案手法は,ピクセルレベルのアノテーションを不要にしながら,直感的な説明を提供する。 提案手法は,ai生成画像の特異性に対する耐性を示すものであり,既存の手法のほとんどが不足している課題である。 また,本手法は,生成モデルに基づく下流アプリケーションに伝播する急激な相関を検出するのにも適している。

Often machine learning models tend to automatically learn associations present in the training data without questioning their validity or appropriateness. This undesirable property is the root cause of the manifestation of spurious correlations, which render models unreliable and prone to failure in the presence of distribution shifts. Research shows that most methods attempting to remedy spurious correlations are only effective for a model's known spurious associations. Current spurious correlation detection algorithms either rely on extensive human annotations or are too restrictive in their formulation. Moreover, they rely on strict definitions of visual artifacts that may not apply to data produced by generative models, as they are known to hallucinate contents that do not conform to standard specifications. In this work, we introduce a general-purpose method that efficiently detects potential spurious correlations, and requires significantly less human interference in comparison to the prior art. Additionally, the proposed method provides intuitive explanations while eliminating the need for pixel-level annotations. We demonstrate the proposed method's tolerance to the peculiarity of AI-generated images, which is a considerably challenging task, one where most of the existing methods fall short. Consequently, our method is also suitable for detecting spurious correlations that may propagate to downstream applications originating from generative models.
翻訳日:2023-11-06 15:38:06 公開日:2023-11-03
# INeAT: 反復型ニューラルアダプティブ・トモグラフィ

INeAT: Iterative Neural Adaptive Tomography ( http://arxiv.org/abs/2311.01653v1 )

ライセンス: Link先を確認
Bo Xiong, Changqing Su, Zihan Lin, You Zhou, Zhaofei Yu(参考訳) ct(ct)は、複数の投影から3次元イメージングに優れた能力を持ち、臨床診断、科学的観察、工業的検出に幅広い応用を享受している。 ニューラル・アダプティブ・トモグラフィー(NeAT)は,最近提案されたCTのニューラル・ラディアンス・フィールドに基づく3次元レンダリング手法であり,従来の手法と比較して優れた性能を示す。 しかし、ctスキャンプロセスで発生する実質的な摂動やポーズシフトを扱う場合、依然として課題に直面している。 本稿では,反復的姿勢最適化を組み込んだ反復的姿勢適応トモグラフィ(ineat)と呼ばれるct再構成のためのニューラルレンダリング手法を提案する。 姿勢フィードバック最適化戦略の実装により、ineatは、再構成された3次元ボリュームに基づいて、入力画像に対応する姿勢を反復的に洗練する。 IneAT は, 顕著なポーズ障害を伴うシナリオにおいて, アーティファクト抑制と解像度向上を実現していることを示す。 さらに、不安定な状態取得のデータを用いても、我々のINeATは安定した状態取得に匹敵する再構成性能を維持しており、CTスキャンに必要な時間を大幅に削減し、画像ハードウェアシステムに対する厳密な要求を緩和し、短時間で低コストなCT技術の応用の可能性を強調する。

Computed Tomography (CT) with its remarkable capability for three-dimensional imaging from multiple projections, enjoys a broad range of applications in clinical diagnosis, scientific observation, and industrial detection. Neural Adaptive Tomography (NeAT) is a recently proposed 3D rendering method based on neural radiance field for CT, and it demonstrates superior performance compared to traditional methods. However, it still faces challenges when dealing with the substantial perturbations and pose shifts encountered in CT scanning processes. Here, we propose a neural rendering method for CT reconstruction, named Iterative Neural Adaptive Tomography (INeAT), which incorporates iterative posture optimization to effectively counteract the influence of posture perturbations in data, particularly in cases involving significant posture variations. Through the implementation of a posture feedback optimization strategy, INeAT iteratively refines the posture corresponding to the input images based on the reconstructed 3D volume. We demonstrate that INeAT achieves artifact-suppressed and resolution-enhanced reconstruction in scenarios with significant pose disturbances. Furthermore, we show that our INeAT maintains comparable reconstruction performance to stable-state acquisitions even using data from unstable-state acquisitions, which significantly reduces the time required for CT scanning and relaxes the stringent requirements on imaging hardware systems, underscoring its immense potential for applications in short-time and low-cost CT technology.
翻訳日:2023-11-06 15:37:46 公開日:2023-11-03
# 対称性評価によるキーポイント記述 --バイオメトリックスへの応用

Keypoint Description by Symmetry Assessment -- Applications in Biometrics ( http://arxiv.org/abs/2311.01651v1 )

ライセンス: Link先を確認
Anna Mikaelyan, Fernando Alonso-Fernandez, Josef Bigun(参考訳) 有限展開によりキーポイント周辺の近傍を記述するモデルに基づく特徴抽出器を提案し、調和関数によって空間的に変化する向きを推定する。 そのような関数のiso曲線は、原点(キーポイント)が非常に対称な w.r.t であり、推定パラメータはよく定義された幾何学的解釈を持つ。 原点はまたすべての調和函数の特異点であり、キーポイントの位置を正確に決定するのに役立ち、関数は近傍のオブジェクト形状を記述する。 これは、テクスチャ形式の特性を記述する伝統的なテクスチャの特徴、すなわち(テクスチャを含む)翻訳に本質的に不変である。 我々は,公開データ(NIST SD27)を用いて,指紋のキーポイントの検証と識別実験を行い,他の研究との比較を行った。 これらの結果は,新しい特徴が1コアや1マイナティアを19%のeerで,24~78%の識別力を1~20のランクで備えることができることを裏付けている。 また,近赤外画像を用いた骨盤バイオメトリックスの検証結果を報告し,eer性能は13%に達し,その精度は最先端に匹敵する。 さらに重要なことは、私たちのシステムとテクスチャ機能(Gabor)の融合によって、測定可能なパフォーマンス改善がもたらされることです。 我々はEERを9%に削減し,従来のテクスチャの特徴ではあり得ない,関連性のある視覚情報を取得するという視点を裏付ける。

We present a model-based feature extractor to describe neighborhoods around keypoints by finite expansion, estimating the spatially varying orientation by harmonic functions. The iso-curves of such functions are highly symmetric w.r.t. the origin (a keypoint) and the estimated parameters have well defined geometric interpretations. The origin is also a unique singularity of all harmonic functions, helping to determine the location of a keypoint precisely, whereas the functions describe the object shape of the neighborhood. This is novel and complementary to traditional texture features which describe texture-shape properties i.e. they are purposively invariant to translation (within a texture). We report on experiments of verification and identification of keypoints in forensic fingerprints by using publicly available data (NIST SD27) and discuss the results in comparison to other studies. These support our conclusions that the novel features can equip single cores or single minutia with a significant verification power at 19% EER, and an identification power of 24-78% for ranks of 1-20. Additionally, we report verification results of periocular biometrics using near-infrared images, reaching an EER performance of 13%, which is comparable to the state of the art. More importantly, fusion of two systems, our and texture features (Gabor), result in a measurable performance improvement. We report reduction of the EER to 9%, supporting the view that the novel features capture relevant visual information, which traditional texture features do not.
翻訳日:2023-11-06 15:37:18 公開日:2023-11-03
# marrs:マルチモーダル参照解像度システム

MARRS: Multimodal Reference Resolution System ( http://arxiv.org/abs/2311.01650v1 )

ライセンス: Link先を確認
Halim Cagri Ates, Shruti Bhargava, Site Li, Jiarui Lu, Siddhardha Maddula, Joel Ruben Antony Moniz, Anil Kumar Nalamalapu, Roman Hoang Nguyen, Melis Ozyildirim, Alkesh Patel, Dhivya Piraviperumal, Vincent Renkens, Ankit Samal, Thy Tran, Bo-Hsiang Tseng, Hong Yu, Yuan Zhang, Rong Zou(参考訳) コンテキストの適切な処理は、任意のダイアログ理解タスクに不可欠です。 このコンテキストは、会話型(以前のユーザクエリやシステムレスポンスに基づいて)、視覚的(例えば、ユーザが画面で見ているものに基づいて)、背景(リングアラームや音楽を演奏するような信号に基づいて)である。 本稿では,自然言語理解システムにおけるオンデバイスフレームワークであるmarrs(multimodal reference resolution system)の概要について述べる。 特に,コンテキストクエリのハンドリングを可能にするために,さまざまな機械学習モデルを提案する。 また,これらのモデルが相互補完して,ユーザのプライバシを保ちながらコンテキストを理解可能な統一的で一貫性のある軽量システムを形成する方法について説明する。

Successfully handling context is essential for any dialog understanding task. This context maybe be conversational (relying on previous user queries or system responses), visual (relying on what the user sees, for example, on their screen), or background (based on signals such as a ringing alarm or playing music). In this work, we present an overview of MARRS, or Multimodal Reference Resolution System, an on-device framework within a Natural Language Understanding system, responsible for handling conversational, visual and background context. In particular, we present different machine learning models to enable handing contextual queries; specifically, one to enable reference resolution, and one to handle context via query rewriting. We also describe how these models complement each other to form a unified, coherent, lightweight system that can understand context while preserving user privacy.
翻訳日:2023-11-06 15:36:52 公開日:2023-11-03
# マルチリレーショナルグラフとテンポラルグラフによるGNNの論理表現性向上

Calibrate and Boost Logical Expressiveness of GNN Over Multi-Relational and Temporal Graphs ( http://arxiv.org/abs/2311.01647v1 )

ライセンス: Link先を確認
Yeyuan Chen and Dingmin Wang(参考訳) グラフ表現学習の強力なフレームワークとして、グラフニューラルネットワーク(GNN)は近年大きな注目を集めている。 しかしながら、我々の知る限り、GNNの論理的表現性について、各エッジが特定の関係型を持つ多重関係グラフ上のブールノード分類器としての公式な分析は行われていない。 本稿では,二つの変数を持つ一階述語論理のフラグメントである$\mathcal{FOC}_2$について検討する。 負の面では、グローバルリードアウトを組み込んだローカルメッセージパッシングGNNを拡張したR$^2$-GNNアーキテクチャが、一般的なケースでは$\mathcal{FOC}_2$分類器を捕捉できないことを示す。 それにもかかわらず、正の面において、R$^2$-GNNs モデルは、一定の制限のある妥当なシナリオの下で $\mathcal{FOC}_2$ 分類器と等価であることを示す。 表現性に関するR$^2$-GNNの制限に対処するため、線形時間で実行できる前処理ステップに似た単純なグラフ変換手法を提案する。 この変換により、R$^2$-GNNは"変換"入力グラフに適用された任意の$\mathcal{FOC}_2$分類器を効果的にキャプチャできる。 さらに、表現性およびグラフ変換の分析を時間グラフに拡張し、複数の時間的GNNアーキテクチャを探索し、表現性階層を提供する。 本稿では,R$^2$-GNNとグラフ変換手法を実装し,マルチリレーショナルグラフや時間グラフをサポートするよく知られたGNNアーキテクチャに対して,ノード分類タスクにおける経験的テストを行う。 グラフ変換を用いたr$^2$-gnnが合成データと実世界データの両方のベースラインメソッドを上回ることを一貫して実証した。

As a powerful framework for graph representation learning, Graph Neural Networks (GNNs) have garnered significant attention in recent years. However, to the best of our knowledge, there has been no formal analysis of the logical expressiveness of GNNs as Boolean node classifiers over multi-relational graphs, where each edge carries a specific relation type. In this paper, we investigate $\mathcal{FOC}_2$, a fragment of first-order logic with two variables and counting quantifiers. On the negative side, we demonstrate that the R$^2$-GNN architecture, which extends the local message passing GNN by incorporating global readout, fails to capture $\mathcal{FOC}_2$ classifiers in the general case. Nevertheless, on the positive side, we establish that R$^2$-GNNs models are equivalent to $\mathcal{FOC}_2$ classifiers under certain restricted yet reasonable scenarios. To address the limitations of R$^2$-GNNs regarding expressiveness, we propose a simple graph transformation technique, akin to a preprocessing step, which can be executed in linear time. This transformation enables R$^2$-GNNs to effectively capture any $\mathcal{FOC}_2$ classifiers when applied to the "transformed" input graph. Moreover, we extend our analysis of expressiveness and graph transformation to temporal graphs, exploring several temporal GNN architectures and providing an expressiveness hierarchy for them. To validate our findings, we implement R$^2$-GNNs and the graph transformation technique and conduct empirical tests in node classification tasks against various well-known GNN architectures that support multi-relational or temporal graphs. Our experimental results consistently demonstrate that R$^2$-GNN with the graph transformation outperforms the baseline methods on both synthetic and real-world datasets
翻訳日:2023-11-06 15:36:36 公開日:2023-11-03
# semigpc:ガウス過程を用いた不均衡半教師付き学習のための分布認識ラベルの改良

SemiGPC: Distribution-Aware Label Refinement for Imbalanced Semi-Supervised Learning Using Gaussian Processes ( http://arxiv.org/abs/2311.01646v1 )

ライセンス: Link先を確認
Abdelhak Lemkhenter, Manchen Wang, Luca Zancato, Gurumurthy Swaminathan, Paolo Favaro, Davide Modolo(参考訳) 本稿では,モデルの予測をラベル後方分布から導出するガウス過程に基づく分布認識ラベルリファインメント戦略であるsemigpcを提案する。 CoMatchやSimMatchのようなバッファベースの他の半教師付き手法とは異なり、SemiGPCは局所感度を維持しながらグローバルなデータ分布の不均衡に対処する正規化項を含む。 この明示的な制御により、SemiGPCは特にクラス不均衡下での確認バイアスに対してより堅牢になる。 そこで本研究では,FixMatch,ReMixMatch,SimMatch,FreeMatchなどのSemi-SupervisedメソッドとMSN,Dinoなどの事前学習戦略との組み合わせにより,SemiGPCの性能向上を示す。 また,SemiGPCは標準CIFAR10-LT/CIFAR100-LTにおけるクラス不均衡の度合いが異なる結果が得られることを示す。 SemiGPCを使用すると、より困難なベンチマークであるSemiAves、SemiCUB、SemiFungi、Semi-iNatの新たな競争ベースラインと比較して約2%の精度が向上する。

In this paper we introduce SemiGPC, a distribution-aware label refinement strategy based on Gaussian Processes where the predictions of the model are derived from the labels posterior distribution. Differently from other buffer-based semi-supervised methods such as CoMatch and SimMatch, our SemiGPC includes a normalization term that addresses imbalances in the global data distribution while maintaining local sensitivity. This explicit control allows SemiGPC to be more robust to confirmation bias especially under class imbalance. We show that SemiGPC improves performance when paired with different Semi-Supervised methods such as FixMatch, ReMixMatch, SimMatch and FreeMatch and different pre-training strategies including MSN and Dino. We also show that SemiGPC achieves state of the art results under different degrees of class imbalance on standard CIFAR10-LT/CIFAR100-LT especially in the low data-regime. Using SemiGPC also results in about 2% avg.accuracy increase compared to a new competitive baseline on the more challenging benchmarks SemiAves, SemiCUB, SemiFungi and Semi-iNat.
翻訳日:2023-11-06 15:36:03 公開日:2023-11-03
# 学生ネットワークをコピーするか, 平均教師の体重を測るべきか?

Should Under-parameterized Student Networks Copy or Average Teacher Weights? ( http://arxiv.org/abs/2311.01644v1 )

ライセンス: Link先を確認
Berfin \c{S}im\c{s}ek, Amire Bendjeddou, Wulfram Gerstner, Johanni Brea(参考訳) 任意の連続関数 $f^*$ は、十分に多くのニューロンを持つニューラルネットワークによって任意に近似することができる。 私たちは、$f^*$が1つの隠れ層と$k$ニューロンを持つニューラルネットワークである場合を考える。 したがって、$f^*$を$n<k$ニューロンのニューラルネットワークで近似することは、$k$ニューロンの"Teacher"ネットワークに$n$ニューロンのパラメータ以下の"student"ネットワークを適合させると見なすことができる。 生徒は教師よりニューロンが少ないため、n$の学生ニューロンのそれぞれが教師ニューロンの1つをコピーするか、あるいは教師ニューロンのグループを平均するべきかは不明である。 erfアクティベーション関数と標準ガウス入力分布を持つ浅層ニューラルネットワークでは,教師の入力ベクトルが正規直交し,出力重みがユニタリであれば,"コピー平均"構成が重要なポイントであることが証明される。 さらに、n-1$の学生ニューロンが1つの教師ニューロンをコピーし、n-$の学生ニューロンが残りの$k-n+1$の教師ニューロンを平均すると、そのような構成の最適値に達する。 n=1$のニューロンを持つ学生ネットワークに対して、等価な制約付き最適化問題を解くことによって、一般的に使用される活性化関数に対する非自明な臨界点のクローズドフォームソリューションを提供する。 経験的に、勾配流が最適なコピー平均臨界点に収束するか、あるいは各生徒ニューロンがおよそ異なる教師ニューロンを複製する他の点に収束するerf活性化関数を見いだす。 最後に,reluアクティベーション関数についても同様の結果が得られ,低パラメータネットワークの最適解は普遍的な構造を持つことが示唆された。

Any continuous function $f^*$ can be approximated arbitrarily well by a neural network with sufficiently many neurons $k$. We consider the case when $f^*$ itself is a neural network with one hidden layer and $k$ neurons. Approximating $f^*$ with a neural network with $n< k$ neurons can thus be seen as fitting an under-parameterized "student" network with $n$ neurons to a "teacher" network with $k$ neurons. As the student has fewer neurons than the teacher, it is unclear, whether each of the $n$ student neurons should copy one of the teacher neurons or rather average a group of teacher neurons. For shallow neural networks with erf activation function and for the standard Gaussian input distribution, we prove that "copy-average" configurations are critical points if the teacher's incoming vectors are orthonormal and its outgoing weights are unitary. Moreover, the optimum among such configurations is reached when $n-1$ student neurons each copy one teacher neuron and the $n$-th student neuron averages the remaining $k-n+1$ teacher neurons. For the student network with $n=1$ neuron, we provide additionally a closed-form solution of the non-trivial critical point(s) for commonly used activation functions through solving an equivalent constrained optimization problem. Empirically, we find for the erf activation function that gradient flow converges either to the optimal copy-average critical point or to another point where each student neuron approximately copies a different teacher neuron. Finally, we find similar results for the ReLU activation function, suggesting that the optimal solution of underparameterized networks has a universal structure.
翻訳日:2023-11-06 15:35:42 公開日:2023-11-03
# 有界合理性曲線によるロバストな対向強化学習

Robust Adversarial Reinforcement Learning via Bounded Rationality Curricula ( http://arxiv.org/abs/2311.01642v1 )

ライセンス: Link先を確認
Aryaman Reddi, Maximilian T\"olle, Jan Peters, Georgia Chalvatzaki, Carlo D'Eramo(参考訳) 敵攻撃や分散シフトに対するロバスト性は、強化学習(RL)の長年の目標である。 この目的のために、ロバストな敵強化学習(rarl)は、競争ゼロサムマルコフゲームにおいて敵が実行する不安定な力に対して主人公を訓練し、その最適解、すなわち合理的戦略がナッシュ均衡に対応する。 しかし、ナッシュ平衡を見つけるには複雑なサドル点最適化問題に直面する必要があり、特に高次元制御では解けない。 本稿では,サドル点最適化問題の複雑性を軽減するために,エントロピー正則化に基づく逆RLの新たなアプローチを提案する。 このエントロピー規則化問題の解法は、有界な有理性、すなわちエージェントが最適なものの代わりにランダムな動作を行うようなナッシュ均衡の一般化である量子応答平衡(QRE)に対応することを示す。 重要なのは、エントロピー正規化目的とqreとの接続により、温度係数を単純に調整することによって、剤の合理性を自由に変調できることである。 この知見を活かして,本アルゴリズムであるquantal adversarial rl (qarl) を提案する。このアルゴリズムは,本手法が完全に合理的になるまで,そのアルゴリズムの合理性を徐々に向上させ,ロバスト性を維持しつつ最適化問題の複雑さを緩和する。 我々は,QARL が RARL を上回り,近年の MuJoCo のロコモーションやナビゲーションの問題を総合的な性能とロバスト性に及ぼしていることを示す。

Robustness against adversarial attacks and distribution shifts is a long-standing goal of Reinforcement Learning (RL). To this end, Robust Adversarial Reinforcement Learning (RARL) trains a protagonist against destabilizing forces exercised by an adversary in a competitive zero-sum Markov game, whose optimal solution, i.e., rational strategy, corresponds to a Nash equilibrium. However, finding Nash equilibria requires facing complex saddle point optimization problems, which can be prohibitive to solve, especially for high-dimensional control. In this paper, we propose a novel approach for adversarial RL based on entropy regularization to ease the complexity of the saddle point optimization problem. We show that the solution of this entropy-regularized problem corresponds to a Quantal Response Equilibrium (QRE), a generalization of Nash equilibria that accounts for bounded rationality, i.e., agents sometimes play random actions instead of optimal ones. Crucially, the connection between the entropy-regularized objective and QRE enables free modulation of the rationality of the agents by simply tuning the temperature coefficient. We leverage this insight to propose our novel algorithm, Quantal Adversarial RL (QARL), which gradually increases the rationality of the adversary in a curriculum fashion until it is fully rational, easing the complexity of the optimization problem while retaining robustness. We provide extensive evidence of QARL outperforming RARL and recent baselines across several MuJoCo locomotion and navigation problems in overall performance and robustness.
翻訳日:2023-11-06 15:35:12 公開日:2023-11-03
# ペアプログラミングと問題解決スタジオによるコンピュータサイエンス教育の強化

Enhancing Computer Science Education with Pair Programming and Problem Solving Studios ( http://arxiv.org/abs/2311.01693v1 )

ライセンス: Link先を確認
J. Walker Orr(参考訳) 本研究では,ペアプログラミングと組み合わせることで,問題解決スタジオをコンピュータサイエンス教育に適用することを検討する。 ペアプログラミングは業界でソフトウェアエンジニアリングのプラクティスですが、教室ではさまざまな結果が出ています。 近年の研究では、ペアプログラミングは効果的な教育ツールになる可能性が示唆されているが、教室におけるペアプログラミングの優れた指導設計と実装を構成するものは明確ではない。 バイオメディカル工学から派生した教育学である問題解決スタジオ(PSS)を応用して,ペアプログラミングのための教育設計フレームワークを開発した。 PSSは、インストラクターがリアルタイムでフィードバックしたオープンエンドの問題を解決する学生のチームを含む。 特にPSSは、調整可能な難易度の問題を用いて、すべてのレベルの生徒が近位発達の領域内で関わり、機能し続ける。 コース構造には3つの段階があり、まずデモから始まり、その後pssセッションを行い、次に報告を終える。 我々はpssとペアプログラミングの組み合わせをcs1クラスで3年間研究した。 学生の調査では、高いレベルのエンゲージメント、学習、モチベーションが報告されている。

This study examines the adaptation of the problem-solving studio to computer science education by combining it with pair programming. Pair programming is a software engineering practice in industry, but has seen mixed results in the classroom. Recent research suggests that pair programming has promise and potential to be an effective pedagogical tool, however what constitutes good instructional design and implementation for pair programming in the classroom is not clear. We developed a framework for instructional design for pair programming by adapting the problem-solving studio (PSS), a pedagogy originally from biomedical engineering. PSS involves teams of students solving open-ended problems with real-time feedback given by the instructor. Notably, PSS uses problems of adjustable difficulty to keep students of all levels engaged and functioning within the zone of proximal development. The course structure has three stages, first starting with demonstration, followed by a PSS session, then finishing with a debrief. We studied the combination of PSS and pair programming in a CS1 class over three years. Surveys of the students report a high level of engagement, learning, and motivation.
翻訳日:2023-11-06 15:26:11 公開日:2023-11-03
# テキスト・テキスト・トランスファーによる言語モデルのデータフリー蒸留

Data-Free Distillation of Language Model by Text-to-Text Transfer ( http://arxiv.org/abs/2311.01689v1 )

ライセンス: Link先を確認
Zheyuan Bai, Xinduo Liu, Hailin Hu, Tianyu Guo, Qinghua Zhang, Yunhe Wang(参考訳) データフリー知識蒸留(DFKD)は、元のトレーニングデータが利用できないときにモデルを圧縮する上で重要な役割を果たす。 NLPにおけるDFKDのこれまでの研究は主に、生成言語モデリングの顕著な進歩を見越した分類タスクにおけるBERTのようなエンコーダのみの構造の蒸留に焦点を当てていた。 本研究では,事前学習された生成言語モデルがモデル圧縮のための制御可能なデータジェネレータとしても機能する,dfkd-t$^{3}$という新しいdfkdフレームワークを提案する。 この斬新なフレームワーク dfkd-t$^{3}$ は、一般的なドメインコーパスを圧縮フレンドリなタスクデータに変換するエンドツーエンドの学習可能なテキスト間フレームワークとなり、 \textit{specificity} と \textit{diversity} の両方を改善することを目標としている。 広範な実験により, 感情分析, 言語受容性, 情報抽出など, 下流課題の蒸留性能を向上させることができた。 さらに, 生成したテキストを他の言語モデルを蒸留し, sota法を上回り, 一般的なdfkd設定でより魅力的になることを示す。 私たちのコードはhttps://gitee.com/mindspore/models/tree/master/research/nlp/DFKD\_T3で利用可能です。

Data-Free Knowledge Distillation (DFKD) plays a vital role in compressing the model when original training data is unavailable. Previous works for DFKD in NLP mainly focus on distilling encoder-only structures like BERT on classification tasks, which overlook the notable progress of generative language modeling. In this work, we propose a novel DFKD framework, namely DFKD-T$^{3}$, where the pretrained generative language model can also serve as a controllable data generator for model compression. This novel framework DFKD-T$^{3}$ leads to an end-to-end learnable text-to-text framework to transform the general domain corpus to compression-friendly task data, targeting to improve both the \textit{specificity} and \textit{diversity}. Extensive experiments show that our method can boost the distillation performance in various downstream tasks such as sentiment analysis, linguistic acceptability, and information extraction. Furthermore, we show that the generated texts can be directly used for distilling other language models and outperform the SOTA methods, making our method more appealing in a general DFKD setting. Our code is available at https://gitee.com/mindspore/models/tree/master/research/nlp/DFKD\_T3.
翻訳日:2023-11-06 15:25:54 公開日:2023-11-03
# 伝達情報を用いた異方性表現学習

Disentangled Representation Learning with Transmitted Information Bottleneck ( http://arxiv.org/abs/2311.01686v1 )

ライセンス: Link先を確認
Zhuohang Dang, Minnan Luo, Chengyou Jia, Guang Dai, Jihong Wang, Xiaojun Chang, Jingdong Wang, Qinghua Zheng(参考訳) 原データからのタスク関連情報のみを符号化する、非絡み合い表現学習は、モデルの堅牢性と一般化可能性に大きく寄与する。 情報理論による表現の正規化によって大きな進歩があったが、2つの大きな課題が残っている。 1) 表現圧縮は必然的に性能低下につながる。 2)表現上の絡み合う制約は複雑な最適化である。 そこで本研究では,情報伝達型ベイズネットワークを導入し,入力と表現間の相互作用を定式化する。 この枠組みに基づいて,情報圧縮と保存のバランスを保ちつつ,新たな目的である「textbf{DisTIB}(\textbf{T}ransmitted \textbf{I}nformation \textbf{B}ottleneck for \textbf{Dis}entangled representation learning)」を提案する。 DisTIBの抽出可能な推定を導出するために変分推論を用いる。 この推定は、再パラメータ化トリックを用いて、標準勾配降下によって簡単に最適化できる。 さらに,DisTIBが最適解離を達成できることを理論的に証明し,その有効性を裏付ける。 そこで我々は,DisTIBの魅力ある効果を実証し,理論解析を検証するために,様々な下流タスクに関する広範な実験を行った。

Encoding only the task-related information from the raw data, \ie, disentangled representation learning, can greatly contribute to the robustness and generalizability of models. Although significant advances have been made by regularizing the information in representations with information theory, two major challenges remain: 1) the representation compression inevitably leads to performance drop; 2) the disentanglement constraints on representations are in complicated optimization. To these issues, we introduce Bayesian networks with transmitted information to formulate the interaction among input and representations during disentanglement. Building upon this framework, we propose \textbf{DisTIB} (\textbf{T}ransmitted \textbf{I}nformation \textbf{B}ottleneck for \textbf{Dis}entangled representation learning), a novel objective that navigates the balance between information compression and preservation. We employ variational inference to derive a tractable estimation for DisTIB. This estimation can be simply optimized via standard gradient descent with a reparameterization trick. Moreover, we theoretically prove that DisTIB can achieve optimal disentanglement, underscoring its superior efficacy. To solidify our claims, we conduct extensive experiments on various downstream tasks to demonstrate the appealing efficacy of DisTIB and validate our theoretical analyses.
翻訳日:2023-11-06 15:25:30 公開日:2023-11-03
# 症例:拡張アンサー空間を有するCommonsense-Augmented Score

CASE: Commonsense-Augmented Score with an Expanded Answer Space ( http://arxiv.org/abs/2311.01684v1 )

ライセンス: Link先を確認
Wenkai Chen and Sahithya Ravi and Vered Shwartz(参考訳) LLMは、彼らがトレーニングで得た知識のおかげで、NLPタスクで印象的なゼロショットのパフォーマンスを示した。 複数選択QAタスクでは、各回答選択の妥当性の不完全な尺度としてLM確率が使用される。 基本スコアの主な制限の1つは、すべての単語を等しく重要なものとして扱うことである。 拡張アンサー空間を有するCASE(Commonsense-Augmented Score)を提案する。 caseはこの制限に対処し、入力中の他の単語との意味関係に基づいて個々の単語の重要性重みを割り当てる。 動的重み付けアプローチは、重要でない単語からノイズを除去するだけでなく、質問に答えるのに役立つ暗黙のコモンセンス知識のモデルを伝えるため、基本的なLMスコアよりも優れている。 さらに,概念的に選択に類似した語彙的多様性のある回答を生成することにより,回答空間を拡大する先行研究にも従う。 回答空間拡大と組み合わせると、5つのcommonsenseベンチマークの強いベースラインを上回る。 さらに,これら2つのアプローチは相補的であり,より小さなlmsを使用する場合に特に有用であることを示す。

LLMs have demonstrated impressive zero-shot performance on NLP tasks thanks to the knowledge they acquired in their training. In multiple-choice QA tasks, the LM probabilities are used as an imperfect measure of the plausibility of each answer choice. One of the major limitations of the basic score is that it treats all words as equally important. We propose CASE, a Commonsense-Augmented Score with an Expanded Answer Space. CASE addresses this limitation by assigning importance weights for individual words based on their semantic relations to other words in the input. The dynamic weighting approach outperforms basic LM scores, not only because it reduces noise from unimportant words, but also because it informs the model of implicit commonsense knowledge that may be useful for answering the question. We then also follow prior work in expanding the answer space by generating lexically-divergent answers that are conceptually-similar to the choices. When combined with answer space expansion, our method outperforms strong baselines on 5 commonsense benchmarks. We further show these two approaches are complementary and may be especially beneficial when using smaller LMs.
翻訳日:2023-11-06 15:25:05 公開日:2023-11-03
# 部分合成データを用いた機械学習による腫瘍のAmide Proton Transfer(APT)イメージング

Amide Proton Transfer (APT) imaging in tumor with a machine learning approach using partially synthetic data ( http://arxiv.org/abs/2311.01683v1 )

ライセンス: Link先を確認
Malvika Viswanathan, Leqi Yin, Yashwant Kurmi, Zhongliang Zu(参考訳) 機械学習(ML)は、化学交換飽和移動(CEST)効果の定量化にますます利用されている。 mlモデルは通常、測定データまたは完全なシミュレーションデータを使用して訓練される。 しかしながら、測定データによるトレーニングには十分なトレーニングデータがない場合が多いが、完全にシミュレートされたデータによるトレーニングは、限られたシミュレーションプールによるバイアスをもたらす可能性がある。 本研究は,シミュレーションと測定を組み合わせることで部分合成cestデータを生成し,アミドプロトン移動(apt)効果を予測するためのmlモデルのトレーニングの可能性を評価するための新しいプラットフォームを提案する。 部分合成CEST信号は, シミュレーションと他の成分によるAPT効果の逆和を用いて生成した。 シミュレーションの柔軟性と忠実さのバランスを保ちながら,様々なAPTシミュレーションパラメータとスケーリング係数を用いて測定成分を調整し,トレーニングデータを生成した。 まず, マルチプールモデルシミュレーションを用いて組織模倣CEST信号と地中真実情報を作成し, 評価を行った。 第2に、MLモデルは、部分合成データ、生体内データ、および完全にシミュレートされたデータに基づいて個別に訓練され、9L腫瘍を有するラット脳におけるAPT効果を予測する。 組織ミミキングデータを用いた実験では、部分合成データを用いたML法がAPT予測に正確であることが示唆された。 In vivo実験により,本手法は生体データと完全合成データを用いたトレーニングよりも正確で堅牢な予測を提供することが示された。 部分的に合成されたCESTデータは、従来のML手法の課題に対処することができる。

Machine learning (ML) has been increasingly used to quantify chemical exchange saturation transfer (CEST) effect. ML models are typically trained using either measured data or fully simulated data. However, training with measured data often lacks sufficient training data, while training with fully simulated data may introduce bias due to limited simulations pools. This study introduces a new platform that combines simulated and measured components to generate partially synthetic CEST data, and to evaluate its feasibility for training ML models to predict amide proton transfer (APT) effect. Partially synthetic CEST signals were created using an inverse summation of APT effects from simulations and the other components from measurements. Training data were generated by varying APT simulation parameters and applying scaling factors to adjust the measured components, achieving a balance between simulation flexibility and fidelity. First, tissue-mimicking CEST signals along with ground truth information were created using multiple-pool model simulations to validate this method. Second, an ML model was trained individually on partially synthetic data, in vivo data, and fully simulated data, to predict APT effect in rat brains bearing 9L tumors. Experiments on tissue-mimicking data suggest that the ML method using the partially synthetic data is accurate in predicting APT. In vivo experiments suggest that our method provides more accurate and robust prediction than the training using in vivo data and fully synthetic data. Partially synthetic CEST data can address the challenges in conventional ML methods.
翻訳日:2023-11-06 15:24:49 公開日:2023-11-03
# 自動車・インフラ協調3次元物体検出のためのフローベース特徴融合

Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection ( http://arxiv.org/abs/2311.01682v1 )

ライセンス: Link先を確認
Haibao Yu, Yingjuan Tang, Enze Xie, Jilei Mao, Ping Luo, Zaiqing Nie(参考訳) ego-vehicleとインフラストラクチャセンサデータの両方を活用することで、自動運転の認識能力を大幅に向上させることができる。 しかし、不確定な時間的非同期性と限定的な通信条件は、融合の誤りを招き、インフラデータの活用を制限する可能性がある。 車両・インフラ間協調3D(VIC3D)オブジェクト検出におけるこれらの問題に対処するため,新しい協調検出フレームワークであるFeature Flow Net(FFNet)を提案する。 FFNetはフローベースの機能融合フレームワークで、機能フロー予測モジュールを使用して将来の機能予測と非同期の補償を行う。 FFNetは静止画像から抽出した特徴マップを送信する代わりに、連続的なインフラストラクチャフレームの時間的コヒーレンスを利用して特徴フローを送信する。 さらに,ffnetが生のインフラストラクチャシーケンスから特徴予測能力を備えた特徴フローを生成するための,自己教師付きトレーニング手法を提案する。 実験の結果,提案手法は生データの送信コストの約1/100しか必要とせず,DAIR-V2Xデータセット上の1つのモデルにおける全ての遅延をカバーしながら,既存の協調検出手法よりも優れていた。 コードは \href{https://github.com/haibao-yu/FFNet-VIC3D}{https://github.com/haibao-yu/FFNet-VIC3D} で公開されている。

Cooperatively utilizing both ego-vehicle and infrastructure sensor data can significantly enhance autonomous driving perception abilities. However, the uncertain temporal asynchrony and limited communication conditions can lead to fusion misalignment and constrain the exploitation of infrastructure data. To address these issues in vehicle-infrastructure cooperative 3D (VIC3D) object detection, we propose the Feature Flow Net (FFNet), a novel cooperative detection framework. FFNet is a flow-based feature fusion framework that uses a feature flow prediction module to predict future features and compensate for asynchrony. Instead of transmitting feature maps extracted from still-images, FFNet transmits feature flow, leveraging the temporal coherence of sequential infrastructure frames. Furthermore, we introduce a self-supervised training approach that enables FFNet to generate feature flow with feature prediction ability from raw infrastructure sequences. Experimental results demonstrate that our proposed method outperforms existing cooperative detection methods while only requiring about 1/100 of the transmission cost of raw data and covers all latency in one model on the DAIR-V2X dataset. The code is available at \href{https://github.com/haibao-yu/FFNet-VIC3D}{https://github.com/haibao-yu/FFNet-VIC3D}.
翻訳日:2023-11-06 15:24:22 公開日:2023-11-03
# R.O.A.D.の精密医療

The R.O.A.D. to precision medicine ( http://arxiv.org/abs/2311.01681v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Angelos G. Koulouras, Georgios Antonios Margonis(参考訳) 本稿では,ランダム化試験データサブグループ解析の欠陥に対処し,ランダム化されるようにObservAtional Dataを変換し,精度の高い医療を行うための道を開くことを提案する。 本手法は, 2段階の新たなプロセスにより, 結果の推定確率を補正することにより, 観察データにおける観察不能なコンファウンディングの効果を解消する。 これらの確率は、その特性に基づいて患者のサブグループに治療を最適に割り当てる決定木である最適政策木(OPT)の訓練に使用される。 これにより、臨床的に直感的な治療勧告の作成が容易になる。 消化管間質性腫瘍 (GIST) の観察データに本枠組みを適用し, 感度および特異性指標を用いて, 外部コホートにおけるOPTの検証を行った。 これらのリコメンデーションはGISTの専門家よりも優れていた。 さらに, 四肢肉腫患者の無作為化臨床試験(rct)データにも同様の枠組みを適用した。 初回臨床試験の結果,全ての患者が治療を受けることが示唆されたにもかかわらず,本フレームワークは,患者分布の不均衡に対処し,OPTを通して治療を必要としない特異な特徴を有する患者のサブセットと同定した。 再び、私たちの推奨事項を外部コホートで検証することに成功しました。

We propose a prognostic stratum matching framework that addresses the deficiencies of Randomized trial data subgroup analysis and transforms ObservAtional Data to be used as if they were randomized, thus paving the road for precision medicine. Our approach counters the effects of unobserved confounding in observational data by correcting the estimated probabilities of the outcome under a treatment through a novel two-step process. These probabilities are then used to train Optimal Policy Trees (OPTs), which are decision trees that optimally assign treatments to subgroups of patients based on their characteristics. This facilitates the creation of clinically intuitive treatment recommendations. We applied our framework to observational data of patients with gastrointestinal stromal tumors (GIST) and validated the OPTs in an external cohort using the sensitivity and specificity metrics. We show that these recommendations outperformed those of experts in GIST. We further applied the same framework to randomized clinical trial (RCT) data of patients with extremity sarcomas. Remarkably, despite the initial trial results suggesting that all patients should receive treatment, our framework, after addressing imbalances in patient distribution due to the trial's small sample size, identified through the OPTs a subset of patients with unique characteristics who may not require treatment. Again, we successfully validated our recommendations in an external cohort.
翻訳日:2023-11-06 15:24:00 公開日:2023-11-03
# エネルギー効率の良い設計決定によるソフトウェア開発・アーキテクチャ決定における持続可能性・環境配慮の一事例

A Case for Sustainability and Environment Friendliness in Software Development and Architecture Decisions by Taking Energy-Efficient Design Decisions ( http://arxiv.org/abs/2311.01680v1 )

ライセンス: Link先を確認
Kaushik Dutta, Debra Vandermeer(参考訳) ITの電力使用は重要な懸念事項です。 データセンターのエネルギー消費は世界のエネルギー消費の1%から1.5%を占めると見積もられている。 ハードウェア設計者、データセンター設計者、およびitコミュニティの他のメンバーは、itインフラストラクチャの多くの部分でエネルギー効率の改善に取り組んでいるが、ソフトウェアコンポーネントのエネルギー効率にはほとんど注意が払われていない。 実際、エネルギー効率はソフトウェアの一般的な性能基準ではない。 本研究では,ソフトウェア開発者やエンタープライズアーキテクトによる日常的な意思決定から得られた一連の例に基づいて,ソフトウェアにおけるエネルギー効率向上の可能性の定量化を試みる。 その結果,ソフトウェア開発や選択時間においてエネルギーを意識した選択を行うことで,ソフトウェアやit成果物を持続可能かつ環境に優しいものにする可能性が示唆された。

IT power usage is a significant concern. Data center energy consumption is estimated to account for 1% to 1.5% of all energy consumption worldwide. Hardware designers, data center designers, and other members of the IT community have been working to improve energy efficiency across many parts of the IT infrastructure; however, little attention has been paid to the energy efficiency of software components. Indeed, energy efficiency is currently not a common performance criteria for software. In this work, we attempt to quantify the potential for gains in energy efficiency in software, based on a set of examples drawn from common, everyday decisions made by software developers and enterprise architects. Our results show that there is potential for significant energy savings through energy-conscious choices at software development and selection time, making the software and IT artifact sustainable and environment friendly.
翻訳日:2023-11-06 15:23:36 公開日:2023-11-03
# グリーン化,再利用,リサイクル - 持続可能なソフトウェアの構築

Reduce, Reuse, Recycle: Building Greener Sustainable Software ( http://arxiv.org/abs/2311.01678v1 )

ライセンス: Link先を確認
Kaushik Dutta, Debra Vandermeer(参考訳) 近年は技術利用が急速に伸びている。 事実上、組織や個人の生活のあらゆる側面に浸透している。 この技術は、通常データセンターでサーバー上で動作する。 ワークロードが成長するにつれて、より多くのサービスが必要になります。 各サーバは、データセンターのエネルギー消費フットプリントを段階的に増やす。 現在、データセンターは世界中の電力使用量の1%以上を占めている。 明らかに、エネルギー効率はデータセンターにとって重要な関心事である。 データセンターのエネルギー効率の多くの側面が注目されているが、ソフトウェア開発組織ではエネルギー消費はほとんど考慮されていない。 本研究は,基本的なソフトウェア操作のエネルギー消費への影響を考察し,プログラミングの基本的な側面に関してエネルギーを意識した決定を行うことで,ソフトウェアにおいて非自明な省エネが達成できることを実証する。 この研究で学んだ教訓を適用することで、持続可能なソフトウェアがよりグリーンになる可能性がある。

Technology use has grown rapidly in recent years. It is infused in virtually every aspect of organizational and individual life. This technology runs on servers, typically in data centers. As workloads grow, more serves are required. Each server incrementally adds to the energy consumption footprint of a data center. Currently, data centers account for more than one percent of all power usage worldwide. Clearly, energy efficiency is a significant concern for data centers. While many aspects of data center energy efficiency have received attention, energy consumption is rarely considered in software development organizations. In this work, we consider the energy consumption impacts of fundamental software operations, and demonstrate that non-trivial energy savings can be achieved in software by making energy-conscious decisions regarding basic aspects of programming. This work has significant potential for practical impact; applying the lessons learned in this study can lead to greener sustainable software.
翻訳日:2023-11-06 15:23:21 公開日:2023-11-03
# DialogBench: LLMを人間に似た対話システムとして評価する

DialogBench: Evaluating LLMs as Human-like Dialogue Systems ( http://arxiv.org/abs/2311.01677v1 )

ライセンス: Link先を確認
Jiao Ou, Junda Lu, Che Liu, Yihong Tang, Fuzheng Zhang, Di Zhang, Zhongyuan Wang, Kun Gai(参考訳) 大規模言語モデル(llm)は新しい対話能力において驚くべきブレークスルーを達成し、対話システムに対する人間の印象をリフレッシュした。 対話システムの長年の目標は、コミュニケーション、愛情、社会的帰属の必要性を満たすことで、ユーザーとの長期的なつながりを確立するのに十分な人間的なものである。 そのため,LLMを人間的な対話システムとして評価する必要がある。 本稿では,人間的な対話システムとしてllmの機能を評価するために,現在12ドルの対話タスクを含む対話評価ベンチマークであるdialogbenchを提案する。 具体的には,各タスクに対する評価インスタンスを生成することをGPT-4に促す。 まず,広く使用されている設計原則に基づいた基本プロンプトの設計を行い,既存のバイアスを緩和し,高品質な評価インスタンスを生成する。 80ドル以上のLLM(事前訓練と教師付き指導調整を含む)の広範なテストでは、命令の微調整の利点はLLMの人間的類似性をある程度改善するが、人間のような対話システムとしてのほとんどのLLMの能力を改善する余地はまだまだある。 また,実験結果から,llmは人間の対話システムと異なる能力で異なる性能を示すことが示された。 より広範な研究コミュニティのための評価コードとともに、DialogBenchを公開します。

Large language models (LLMs) have achieved remarkable breakthroughs in new dialogue capabilities, refreshing human's impressions on dialogue systems. The long-standing goal of dialogue systems is to be human-like enough to establish long-term connections with users by satisfying the need for communication, affection and social belonging. Therefore, there has been an urgent need to evaluate LLMs as human-like dialogue systems. In this paper, we propose DialogBench, a dialogue evaluation benchmark that currently contains $12$ dialogue tasks to assess the capabilities of LLMs as human-like dialogue systems should have. Specifically, we prompt GPT-4 to generate evaluation instances for each task. We first design the basic prompt based on widely-used design principles and further mitigate the existing biases to generate higher-quality evaluation instances. Our extensive test over $28$ LLMs (including pre-trained and supervised instruction-tuning) shows that instruction fine-tuning benefits improve the human likeness of LLMs to a certain extent, but there is still much room to improve those capabilities for most LLMs as human-like dialogue systems. In addition, experimental results also indicate that LLMs perform differently in various abilities that human-like dialogue systems should have. We will publicly release DialogBench, along with the associated evaluation code for the broader research community.
翻訳日:2023-11-06 15:23:09 公開日:2023-11-03
# minesegsat:センチネル-2画像による鉱業妨害面積を自動評価するシステム

MineSegSAT: An automated system to evaluate mining disturbed area extents from Sentinel-2 imagery ( http://arxiv.org/abs/2311.01676v1 )

ライセンス: Link先を確認
Ezra MacDonald, Derek Jacoby, and Yvonne Coady(参考訳) 鉱物抽出産業の環境影響評価は, 抽出活動の生態的影響を理解する上で重要な役割を担っている。 本稿では,Sentinel-2データに基づいて学習したSegFormerディープラーニングセグメンテーションアーキテクチャを用いて,鉱物抽出サイトの環境影響領域を予測する新しい手法であるMineSegSATを提案する。 このデータは2021年にカナダ西部の非重複地域から収集され、2021年に高解像度衛星画像から特定された鉱業活動によって環境に影響を受ける土地を含んでいた。 SegFormerアーキテクチャは最先端のセマンティックセグメンテーションフレームワークであり、その高度な空間理解能力を利用して正確な土地被覆分類を行う。 Dice,Tversky,Lovaszの各損失関数の有効性について検討した。 訓練されたモデルは, 翌年の試験領域における推定に利用され, 同様の期間にわたる拡大・縮小の可能性領域を同定した。 sentinel-2データは、awsプラットフォーム上で修正およびタイル化された分析対応データを提供するearth daily analyticsとのコラボレーションによって、amazon web servicesで利用可能になる。 AWS上のデータにアクセスするためのモデルと進行中のAPIにより、自動化ツールが作成され、既知の鉱業サイトを取り巻く混乱した領域を監視でき、環境への影響目標へのコンプライアンスが保証される。

Assessing the environmental impact of the mineral extraction industry plays a critical role in understanding and mitigating the ecological consequences of extractive activities. This paper presents MineSegSAT, a model that presents a novel approach to predicting environmentally impacted areas of mineral extraction sites using the SegFormer deep learning segmentation architecture trained on Sentinel-2 data. The data was collected from non-overlapping regions over Western Canada in 2021 containing areas of land that have been environmentally impacted by mining activities that were identified from high-resolution satellite imagery in 2021. The SegFormer architecture, a state-of-the-art semantic segmentation framework, is employed to leverage its advanced spatial understanding capabilities for accurate land cover classification. We investigate the efficacy of loss functions including Dice, Tversky, and Lovasz loss respectively. The trained model was utilized for inference over the test region in the ensuing year to identify potential areas of expansion or contraction over these same periods. The Sentinel-2 data is made available on Amazon Web Services through a collaboration with Earth Daily Analytics which provides corrected and tiled analytics-ready data on the AWS platform. The model and ongoing API to access the data on AWS allow the creation of an automated tool to monitor the extent of disturbed areas surrounding known mining sites to ensure compliance with their environmental impact goals.
翻訳日:2023-11-06 15:22:45 公開日:2023-11-03
# 記事中のサブテキストブロックのコンテンツ意義分布とその記事構成評価への応用

Content Significance Distribution of Sub-Text Blocks in Articles and Its Application to Article-Organization Assessment ( http://arxiv.org/abs/2311.01673v1 )

ライセンス: Link先を確認
You Zhou, Jie Wang(参考訳) 記事中のサブテキストブロックの重要性と、それがテキストマイニングタスクにどのように使われるかを理解する方法について検討する。 サブテキストブロックは記事中の文のサブシーケンスである。 我々は,CSD-1で表される第1種類のCSDと呼ばれるサブテキストブロックのコンテンツ重要性分布(CSD)の概念を定式化する。 特に,Hugging FaceのSentenceTransformerを利用してコンテキスト文の埋め込みを生成し,テキスト埋め込み上でMoverScoreを使用してサブテキストブロックがテキスト全体とどの程度類似しているかを測定する。 サブテキストブロック数に対する指数関数的ブローアップを克服するため,近似アルゴリズムを示し,近似したcsd-1が正確なcsd-1とほぼ同一であることを示す。 この近似では,ニュース,学術研究,論議,物語記事の平均的,中央値のCSD-1が,同じパターンを共有していることを示す。 また、ある線形変換の下では、一定の値が$\alpha$と$\beta$を持つベータ分布の累積分布関数の補集合はcsd-1曲線に類似していることを示す。 次に, CSD-1を用いて言語的特徴を抽出し, SVC分類器を訓練し, 記事の整理精度を評価する。 実験により,本手法は学生エッセイ評価の精度が高いことを示す。 さらに,第2種類のcsdと呼ばれ,csd-2で表される文位置のcsdについて検討し,異なる種類の記事に対する平均csd-2は,物品構造の共通認識に適合するか,あるいはわずかな偏差で整定を行うかのいずれかに特徴的なパターンを有することを示した。

We explore how to capture the significance of a sub-text block in an article and how it may be used for text mining tasks. A sub-text block is a sub-sequence of sentences in the article. We formulate the notion of content significance distribution (CSD) of sub-text blocks, referred to as CSD of the first kind and denoted by CSD-1. In particular, we leverage Hugging Face's SentenceTransformer to generate contextual sentence embeddings, and use MoverScore over text embeddings to measure how similar a sub-text block is to the entire text. To overcome the exponential blowup on the number of sub-text blocks, we present an approximation algorithm and show that the approximated CSD-1 is almost identical to the exact CSD-1. Under this approximation, we show that the average and median CSD-1's for news, scholarly research, argument, and narrative articles share the same pattern. We also show that under a certain linear transformation, the complement of the cumulative distribution function of the beta distribution with certain values of $\alpha$ and $\beta$ resembles a CSD-1 curve. We then use CSD-1's to extract linguistic features to train an SVC classifier for assessing how well an article is organized. Through experiments, we show that this method achieves high accuracy for assessing student essays. Moreover, we study CSD of sentence locations, referred to as CSD of the second kind and denoted by CSD-2, and show that average CSD-2's for different types of articles possess distinctive patterns, which either conform common perceptions of article structures or provide rectification with minor deviation.
翻訳日:2023-11-06 15:22:22 公開日:2023-11-03
# 結合構造を改良した低損失ミリ波共振器

Low-loss Millimeter-wave Resonators with an Improved Coupling Structure ( http://arxiv.org/abs/2311.01670v1 )

ライセンス: Link先を確認
Alexander Anferov, Shannon P. Harvey, Fanghui Wan, Jonathan Simon and David I. Schuster(参考訳) ミリ波超伝導共振器は、量子デバイスコヒーレンスを新しい周波数領域で研究するのに有用である。 しかし、ミリ波信号を2次元構造に結合する堅牢で信頼性の高い手法がなければ、共振器の改善は困難である。 矩形導波路と平面スロットライン導波路を結合したテープ状遷移構造を14GHz以上の0.5dB効率で開発し,それをW帯(75-110GHz)の地中シールド共振器の測定に用いる。 共振器を放射損失から分離し, 単一光子品質係数を10^5$以上, 2レベル損失限界を10^6$以上と一貫して達成し, 酸化物除去処理の有効性を検証することで損失を低減した。 これらの値は、wバンドで報告された値よりも4-5倍高く、典型的な平面マイクロ波デバイスにかなり近く、低損失のオンチップミリ波量子技術の可能性を示している。

Millimeter-wave superconducting resonators are a useful tool for studying quantum device coherence in a new frequency domain. However, improving resonators is difficult without a robust and reliable method for coupling millimeter-wave signals to 2D structures. We develop and characterize a tapered transition structure coupling a rectangular waveguide to a planar slotline waveguide with better than 0.5 dB efficiency over 14 GHz, and use it to measure ground-shielded resonators in the W band (75-110 GHz). Having decoupled the resonators from radiative losses, we consistently achieve single-photon quality factors above $10^5$, with a two-level-system loss limit above $10^6$, and verify the effectiveness of oxide removal treatments to reduce loss. These values are 4-5 times higher than those previously reported in the W band, and much closer to typical planar microwave devices, demonstrating the potential for low-loss on-chip millimeter wave quantum technology.
翻訳日:2023-11-06 15:21:54 公開日:2023-11-03
# 抽象意味関係の評価としてのプロット検索

Plot Retrieval as an Assessment of Abstract Semantic Association ( http://arxiv.org/abs/2311.01666v1 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Jiangnan Li, Mo Yu, Fandong Meng, Huawei Shen, Xueqi Cheng, Jie Zhou(参考訳) クェリのために本書から関連するプロットを取得することは、読者の読書体験と効率を改善する重要なタスクである。 読者は通常、クエリを自身の理解、要約、あるいはプロットの推測に基づいて、抽象的であいまいな記述を与えるだけであり、検索モデルにはクエリと候補プロットの間の抽象的な意味的関連を推定する強力な能力が必要である。 しかし、既存の情報検索(IR)データセットはこの能力を十分に反映できない。 本稿では,新しいタスクPlot RetrievalにおけるIRモデルの性能をトレーニングし,評価するためのラベル付きデータセットであるPlot Retrievalを提案する。 Plot Retrievalのテキストペアは単語の重複が少なく、より抽象的なセマンティックアソシエーションは、従来の語彙やセマンティックアソシエーションではなく、抽象セマンティックアソシエーションを推定するIRモデルの能力を反映することができる。 様々な語彙検索、スパース検索、密集検索、およびクロスエンコーダ手法に関する広範な実験は、Plot Retrievalの人間による研究と比較すると、現在のIRモデルはテキスト間の抽象的な意味的関連を捉えるのに依然として苦労している。 Plot Retrievalは、IRモデルのセマンティックアソシエーションモデリング能力に関するさらなる研究のベンチマークとなる。

Retrieving relevant plots from the book for a query is a critical task, which can improve the reading experience and efficiency of readers. Readers usually only give an abstract and vague description as the query based on their own understanding, summaries, or speculations of the plot, which requires the retrieval model to have a strong ability to estimate the abstract semantic associations between the query and candidate plots. However, existing information retrieval (IR) datasets cannot reflect this ability well. In this paper, we propose Plot Retrieval, a labeled dataset to train and evaluate the performance of IR models on the novel task Plot Retrieval. Text pairs in Plot Retrieval have less word overlap and more abstract semantic association, which can reflect the ability of the IR models to estimate the abstract semantic association, rather than just traditional lexical or semantic matching. Extensive experiments across various lexical retrieval, sparse retrieval, dense retrieval, and cross-encoder methods compared with human studies on Plot Retrieval show current IR models still struggle in capturing abstract semantic association between texts. Plot Retrieval can be the benchmark for further research on the semantic association modeling ability of IR models.
翻訳日:2023-11-06 15:21:33 公開日:2023-11-03
# エストラト・エギアス・デ・ロチームント・エム・レデス qu\^anticas oportun\'isticas

Comparando Estrat\'egias de Roteamento em Redes Qu\^anticas Oportun\'isticas ( http://arxiv.org/abs/2311.01662v1 )

ライセンス: Link先を確認
Diego Abreu, Alan Veloso, Antonio Abel\'em(参考訳) 本稿では,オポチュニティ量子ネットワークにおける3つのルーティング戦略の比較分析を行う。 量子通信ネットワークは、量子ビットの柔軟性や、信頼できる伝送のために絡み合った状態のペアを作成して維持する必要性など、ユニークな課題に直面している。 この文脈では、効率的で信頼性の高いルーティングは、確立されたルートの忠実度を最大化し、新しい絡み合ったペアの作成を最小化し、経路再計算の必要性を減らすために不可欠である。 ルーティング戦略は、選択されたルートの忠実度、絡み合ったペアの数、ルート再計算の数に基づいて比較される。 その結果、日和見量子ネットワークの設計と最適化に有用な情報を提供し、量子通信の効率と信頼性の進歩に寄与した。

This paper presents a comparative analysis of three routing strategies in opportunistic quantum networks. Quantum communication networks face unique challenges, such as the fragility of qubits and the need to create and maintain pairs of entangled states for reliable transmission. In this context, efficient and reliable routing is crucial to maximize the fidelity of the established routes, minimize the creation of new entangled pairs, and reduce the need for route recalculation. The routing strategies are compared based on the fidelity of the chosen routes, the number of entangled pairs created, and the number of route recalculations. The results obtained provide valuable information for the design and optimization of opportunistic quantum networks, contributing to advances in the efficiency and reliability of quantum communications.
翻訳日:2023-11-06 15:21:09 公開日:2023-11-03
# 量子場をもつ高次高調波発生のためのパラメトリックモデル

Parametric model for high-order harmonic generation with quantized fields ( http://arxiv.org/abs/2311.01726v1 )

ライセンス: Link先を確認
\'Akos Gombk\"ot\H{o}, S\'andor Varr\'o, B\'ela G\'abor Pusztai, Istv\'an Magashegyi, Attila Czirj\'ak, Szabolcs Hack, P\'eter F\"oldi(参考訳) 高次高調波発生のための量子光学モデルが提示され、励起場と高調波モードの両方が量子化され、対象物質はパラメータのみを介して現れる。 その結果, モデルが励起材料系とは独立に存在し, 電磁界の特性に着目できることがわかった。 技術的には、パラメトリックダウン変換として知られるハミルトニアンが採用され、基本モードからn$フォトンを消滅させる代わりに、第n$の調和モードのフォトンが生成される。 この処理では、まず基本モードは大きな光子数に対応するコヒーレントな状態であり、高調波モードは真空状態である。 相互作用のため、後者のモードはポピュレーションされ、基本モードは光子を失う。 解析的近似は、数値計算によって検証される時間進化について提示される。 マルチモード有限帯域励起では、高次高調波放射の時間依存性も与えられる。

A quantum optical model for the high-order harmonic generation is presented, in which both the exciting field and the high harmonic modes are quantized, while the target material appears via parameters only. As a consequence, the model is independent from the excited material system to a large extent, and allows us to focus on the properties of the electromagnetic fields. Technically, the Hamiltonian known for parametric down-conversion is adopted, where photons in the $n$th harmonic mode are created in exchange of annihilating $n$ photons from the fundamental mode. In our treatment, initially the fundamental mode is in a coherent state corresponding to large photon numbers, while the high harmonic modes are in vacuum state. Due to the interaction, the latter modes get populated while the fundamental one loses photons. Analytical approximations are presented for the time evolution that are verified by numerically exact calculations. For multimode, finite bandwith excitation, the time dependence of the high-order harmonic radiation is also given.
翻訳日:2023-11-06 15:12:55 公開日:2023-11-03
# 量子ケースステートメントを用いた量子再帰プログラミング

Quantum Recursive Programming with Quantum Case Statements ( http://arxiv.org/abs/2311.01725v1 )

ライセンス: Link先を確認
Mingsheng Ying and Zhicheng Zhang(参考訳) 量子再帰的計画法(quantum recursive programming)では, 古典的プログラミングにおいて広く用いられる条件文やケース文の量子対応である量子ケースステートメントを用いて, 大きなユニタリ変換(quantum gate)を再帰的に定義することができる。 このような量子再帰をサポートするための単純なプログラミング言語が定義され、その意味論が正式に記述される。 いくつかの量子アルゴリズムがエレガントに量子再帰プログラムとして書けることを示す一連の例を示す。

We introduce a novel scheme of quantum recursive programming, in which large unitary transformations, i.e. quantum gates, can be recursively defined using quantum case statements, which are quantum counterparts of conditionals and case statements extensively used in classical programming. A simple programming language for supporting this kind of quantum recursion is defined, and its semantics is formally described. A series of examples are presented to show that some quantum algorithms can be elegantly written as quantum recursive programs.
翻訳日:2023-11-06 15:12:40 公開日:2023-11-03
# 視覚言語モデルの校正ロバスト微調整に向けて

Towards Calibrated Robust Fine-Tuning of Vision-Language Models ( http://arxiv.org/abs/2311.01723v1 )

ライセンス: Link先を確認
Changdae Oh, Mijoo Kim, Hyesu Lim, Junhyeok Park, Euiseog Jeong, Zhi-Qi Cheng, Kyungwoo Song(参考訳) 微調整は、事前訓練されたモデルのポテンシャルを特定のタスクに解放する一方で、オフ・オブ・ディストリビューション(OOD)データセットでモデルの一般化能力をオフにする。 これを軽減するため、堅牢な微調整は、OODデータセットのパフォーマンスと、モデルがチューニングされている分散(ID)データセットを保証することを目的としている。 しかし、信頼性機械学習(ML)の別の基準である信頼性校正は、実世界のハイテイクMLアプリケーション(例えば、自律運転と診断)への需要が増加しているにもかかわらず見過ごされている。 本稿では,特にOODデータセットにおいて,視覚言語モデル(VLM)のキャリブレーションに対する懸念を初めて高めるとともに,直感的な微調整や,最先端の頑健な微調整手法さえも,事前訓練されたVLMのキャリブレーションを損なうことを示して,分布シフト下での細調整の懸念を提起する。 これを解決するために、キャリブレーションされたロバスト微調整(CaRot)と呼ばれるシンプルなアプローチを提供し、IDとOODデータセットのキャリブレーションとロバスト性にインセンティブを与える。 ImageNet-1K分布シフト評価実験の結果,本手法の有効性が検証された。

While fine-tuning unleashes the potential of a pre-trained model to a specific task, it trades off the model's generalization capability on out-of-distribution (OOD) datasets. To mitigate this, robust fine-tuning aims to ensure performance on OOD datasets as well as an in-distribution (ID) dataset for which the model is being tuned. However, another criterion for reliable machine learning (ML), confidence calibration, has been overlooked despite its increasing demand for real-world high-stakes ML applications (e.g., autonomous driving and medical diagnosis). For the first time, we raise concerns about the calibration of fine-tuned vision-language models (VLMs) under distribution shift by showing that naive fine-tuning and even state-of-the-art robust fine-tuning methods hurt the calibration of pre-trained VLMs, especially on OOD datasets. To address this, we provide a simple approach, called a calibrated robust fine-tuning (CaRot) that incentivizes the calibration and robustness on both ID and OOD datasets. Empirical results on ImageNet-1K distribution shift evaluation verify the effectiveness of our method.
翻訳日:2023-11-06 15:12:28 公開日:2023-11-03
# ランダム部分空間におけるfair:federated averagingを用いたヘテロジニアスフェデレーション協調フィルタリング

Heterogeneous federated collaborative filtering using FAIR: Federated Averaging in Random Subspaces ( http://arxiv.org/abs/2311.01722v1 )

ライセンス: Link先を確認
Aditya Desai, Benjamin Meisburger, Zichang Liu, Anshumali Shrivastava(参考訳) アイテム(映画、本など)や広告に対するレコメンデーションシステム(rs)は、様々なインターネットプラットフォーム上のユーザーにコンテンツを提供するために広く使われている。 従来、リコメンデーションモデルは中央サーバーでトレーニングされる。 しかしながら、gdprのようなデータプライバシや規制に対する懸念が高まっているため、フェデレーション学習は、データがクライアントデバイスを離れないという、ますます一般的なパラダイムである。 統合学習をレコメンデーションモデルに適用することは、ほとんどのユーザデバイスのメモリ制約を超える大きな埋め込みテーブルのため、簡単ではない。 フェデレーション学習にすべてのデバイスからのデータを含めるには、ヘテロジニアスメモリ容量を持つデバイスへのテーブル埋め込みを集団でトレーニングする必要があります。 ヘテロジニアスな連合学習に対する現在のソリューションは、限られた範囲の能力しか持たないため、トレーニングに参加できるデバイス数を制限できる。 本稿では,デバイス容量に基づく埋め込みテーブルの任意の圧縮を可能にし,すべてのデバイスがトレーニングに参加することを保証する,ランダム部分空間におけるフェデレート平均化(fair)を提案する。 FAIRは、ハッシュベースのランダムプロジェクションによって定義された一貫性と折り畳み可能なサブスペースと呼ばれるものを使用して、ユーザデバイス上でさまざまな量の圧縮を使用しながら、大きな埋め込みテーブルを共同でトレーニングします。 本稿では,複数のデータセットを用いたニューラルコラボレーティブフィルタリングタスクにおけるfairを評価し,fairがさまざまなキャパシティを有する幅広いデバイスから情報を収集し共有できることを確認し,シームレスなコラボレーションを可能にする。 非i.dデータ分布の均質な設定におけるFAIRの収束性を証明する。 私たちのコードは、https://github.com/apd10/FLCF}でオープンソースです。

Recommendation systems (RS) for items (e.g., movies, books) and ads are widely used to tailor content to users on various internet platforms. Traditionally, recommendation models are trained on a central server. However, due to rising concerns for data privacy and regulations like the GDPR, federated learning is an increasingly popular paradigm in which data never leaves the client device. Applying federated learning to recommendation models is non-trivial due to large embedding tables, which often exceed the memory constraints of most user devices. To include data from all devices in federated learning, we must enable collective training of embedding tables on devices with heterogeneous memory capacities. Current solutions to heterogeneous federated learning can only accommodate a small range of capacities and thus limit the number of devices that can participate in training. We present Federated Averaging in Random subspaces (FAIR), which allows arbitrary compression of embedding tables based on device capacity and ensures the participation of all devices in training. FAIR uses what we call consistent and collapsible subspaces defined by hashing-based random projections to jointly train large embedding tables while using varying amounts of compression on user devices. We evaluate FAIR on Neural Collaborative Filtering tasks with multiple datasets and verify that FAIR can gather and share information from a wide range of devices with varying capacities, allowing for seamless collaboration. We prove the convergence of FAIR in the homogeneous setting with non-i.i.d data distribution. Our code is open source at {https://github.com/apd10/FLCF}
翻訳日:2023-11-06 15:11:56 公開日:2023-11-03
# EXIM:テキストガイドによる3次元形状生成のためのハイブリッド明示型表現

EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape Generation ( http://arxiv.org/abs/2311.01714v1 )

ライセンス: Link先を確認
Zhengzhe Liu, Jingyu Hu, Ka-Hei Hui, Xiaojuan Qi, Daniel Cohen-Or, Chi-Wing Fu(参考訳) 本稿では,3次元形状生成のための新しいテキストガイド技術を提案する。 この技術は、明示的および暗黙的な表現の強さを組み合わせたハイブリッドな3D形状表現、すなわちEXIMを利用する。 具体的には、明示的なステージは生成された3d形状のトポロジーを制御し、局所的な修正を可能にする。 また、このハイブリッドアプローチでは、形状と色を分離し、形状と色彩の一貫性を確保するために形状を条件とした色を生成する。 既存の最先端手法とは違って、学習やテスト時間最適化において、時間を要する1つの形状の最適化や人間の注釈付きテキストへの依存を必要とせずに、自然言語記述から高忠実な形状を生成する。 さらに,テキスト入力による3次元形状を用いて,一貫したスタイルで室内シーンを生成する手法の適用性を示す。 広範な実験により, 既存の手法の性能をかなり上回って, 結果の説得力のある品質と, 生成した形状と入力テキストとの一貫性を実証した。 コードとモデルはhttps://github.com/liuzhengzhe/eximでリリースされている。

This paper presents a new text-guided technique for generating 3D shapes. The technique leverages a hybrid 3D shape representation, namely EXIM, combining the strengths of explicit and implicit representations. Specifically, the explicit stage controls the topology of the generated 3D shapes and enables local modifications, whereas the implicit stage refines the shape and paints it with plausible colors. Also, the hybrid approach separates the shape and color and generates color conditioned on shape to ensure shape-color consistency. Unlike the existing state-of-the-art methods, we achieve high-fidelity shape generation from natural-language descriptions without the need for time-consuming per-shape optimization or reliance on human-annotated texts during training or test-time optimization. Further, we demonstrate the applicability of our approach to generate indoor scenes with consistent styles using text-induced 3D shapes. Through extensive experiments, we demonstrate the compelling quality of our results and the high coherency of our generated shapes with the input texts, surpassing the performance of existing methods by a significant margin. Codes and models are released at https://github.com/liuzhengzhe/EXIM.
翻訳日:2023-11-06 15:11:28 公開日:2023-11-03
# 中国語アスペクト感情クワッド予測のベンチマークに関する実証的研究

An Empirical Study of Benchmarking Chinese Aspect Sentiment Quad Prediction ( http://arxiv.org/abs/2311.01713v1 )

ライセンス: Link先を確認
Junxian Zhou, Haiqin Yang, Ye Junpeng, Yuxuan He and Hao Mou(参考訳) アスペクト感情クワッド予測(ASQP)はアスペクトレベルの感情分析の重要なサブタスクである。 現在のASQPデータセットは、その小さなサイズと低い4倍密度が特徴であり、技術的発展を妨げる。 容量を拡大するために、複数のオンラインプラットフォームからクロールされた2つの大きな中国のasqpデータセットを構築します。 データセットには、大きなサイズ(それぞれ10,000以上のサンプルを含む)と豊富なアスペクトカテゴリ、文あたりの単語数、既存のASQPデータセットよりも高い密度など、いくつかの重要な特徴がある。 さらに、ASQP上でのGPT(Generative Pre-trained Transformer)シリーズモデルの性能を評価し、潜在的な問題を示す。 最先端のASQPベースラインを用いた実験は、ASQPに対処する新たな技術を探る必要性と、GPTの性能改善手法のさらなる研究の重要性を浮き彫りにしている。

Aspect sentiment quad prediction (ASQP) is a critical subtask of aspect-level sentiment analysis. Current ASQP datasets are characterized by their small size and low quadruple density, which hinders technical development. To expand capacity, we construct two large Chinese ASQP datasets crawled from multiple online platforms. The datasets hold several significant characteristics: larger size (each with 10,000+ samples) and rich aspect categories, more words per sentence, and higher density than existing ASQP datasets. Moreover, we are the first to evaluate the performance of Generative Pre-trained Transformer (GPT) series models on ASQP and exhibit potential issues. The experiments with state-of-the-art ASQP baselines underscore the need to explore additional techniques to address ASQP, as well as the importance of further investigation into methods to improve the performance of GPTs.
翻訳日:2023-11-06 15:11:09 公開日:2023-11-03
# オンライン新聞における政治内容認識のための韓国語テキスト分類ベンチマーク

A New Korean Text Classification Benchmark for Recognizing the Political Intents in Online Newspapers ( http://arxiv.org/abs/2311.01712v1 )

ライセンス: Link先を確認
Beomjune Kim, Eunsun Lee, Dongbin Na(参考訳) 様々な雑誌でオンライン記事を読む多くのユーザーは、テキストの暗黙の意図を区別するのにかなり苦労している。 本研究は、テキストの文脈を理解することによって、あるオンライン新聞の政治的意図を自動的に認識することに焦点を当てる。 そこで本研究では,様々な記事を含む新しい韓国語テキスト分類データセットを提案する。 また,提案するデータセット上で学習したディープラーニングに基づくテキスト分類ベースラインモデルも提供する。 我々のデータセットには、韓国で最も代表的な新聞組織の6つの政治部門から、政治的意図を含む可能性のある12,000のニュース記事が含まれています。 すべてのテキストサンプルは、(1)政治的指向のレベル、(2)親政のレベルという2つの側面で同時にラベル付けされる。 我々の知る限り、我々の論文は韓国で最も大規模なニュースデータセットであり、長いテキストとマルチタスク分類問題に対処する。 また、トランスフォーマーアーキテクチャに基づく最近のSOTA(State-of-the-art)言語モデルをトレーニングし、トレーニングされたモデルが適切なテキスト分類性能を示すことを示す。 すべてのコード、データセット、トレーニングされたモデルはhttps://github.com/Kdavid2355/KoPolitic-Benchmark-Dataset.comで入手できる。

Many users reading online articles in various magazines may suffer considerable difficulty in distinguishing the implicit intents in texts. In this work, we focus on automatically recognizing the political intents of a given online newspaper by understanding the context of the text. To solve this task, we present a novel Korean text classification dataset that contains various articles. We also provide deep-learning-based text classification baseline models trained on the proposed dataset. Our dataset contains 12,000 news articles that may contain political intentions, from the politics section of six of the most representative newspaper organizations in South Korea. All the text samples are labeled simultaneously in two aspects (1) the level of political orientation and (2) the level of pro-government. To the best of our knowledge, our paper is the most large-scale Korean news dataset that contains long text and addresses multi-task classification problems. We also train recent state-of-the-art (SOTA) language models that are based on transformer architectures and demonstrate that the trained models show decent text classification performance. All the codes, datasets, and trained models are available at https://github.com/Kdavid2355/KoPolitic-Benchmark-Dataset.
翻訳日:2023-11-06 15:10:53 公開日:2023-11-03
# 機械学習に基づく共変量表現による因果推論

Causal inference with Machine Learning-Based Covariate Representation ( http://arxiv.org/abs/2311.01709v1 )

ライセンス: Link先を確認
Yuhang Wu, Jinghai He, Zeyu Zheng(参考訳) 共変量情報を活用することは因果推論の効率と精度を向上させるための強力なアプローチであり、データ駆動型企業で大量のランダム化実験をサポートする。 しかし、共変量の次元がわずか50に増加すると、最先端のアプローチは事実上信頼性が低下し、大きなプラットフォームでの実験ではより高次元の共変量の観測が可能となる。 本研究では,同じプラットフォーム上で実行されている履歴実験や観測データを効果的に活用し,より高次元の共変数を効果的に表現できるような機械学習支援型共変数表現手法を提案する。 次に,共変量表現を用いた設計と推定手法を提案する。 提案手法の統計的信頼性と性能保証を実証する。 数値実験により実験性能を実証した。

Utilizing covariate information has been a powerful approach to improve the efficiency and accuracy for causal inference, which support massive amount of randomized experiments run on data-driven enterprises. However, state-of-art approaches can become practically unreliable when the dimension of covariate increases to just 50, whereas experiments on large platforms can observe even higher dimension of covariate. We propose a machine-learning-assisted covariate representation approach that can effectively make use of historical experiment or observational data that are run on the same platform to understand which lower dimensions can effectively represent the higher-dimensional covariate. We then propose design and estimation methods with the covariate representation. We prove statistically reliability and performance guarantees for the proposed methods. The empirical performance is demonstrated using numerical experiments.
翻訳日:2023-11-06 15:10:35 公開日:2023-11-03
# 確率微分方程式に対する潜在空間マッチングを持つ物理インフォームドジェネレータエンコーダ逆ネットワーク

Physics-Informed Generator-Encoder Adversarial Networks with Latent Space Matching for Stochastic Differential Equations ( http://arxiv.org/abs/2311.01708v1 )

ライセンス: Link先を確認
Ruisong Gao, Min Yang, Jin Zhang(参考訳) 本稿では,確率微分方程式の前方,逆,混合問題において生じる課題を効果的に解決するために,物理インフォームド・ジェネレータ・エンコーダ・アドバーサ・ネットワークと呼ばれる新しいタイプのニューラルネットを提案する。 これらのシナリオでは、制御方程式は知られているが、利用可能なデータはシステムパラメータのスナップショットの限られたセットのみで構成されている。 我々のモデルは、ジェネレータとエンコーダの2つのキーコンポーネントで構成され、どちらも勾配降下によって交互に更新される。 近似解と実際のスナップショットを直接マッチングする従来のアプローチとは対照的に、我々は低次元の潜在特徴空間内で作用する間接マッチングを用いる。 本手法は,高次元入力や複雑なデータ分布に関連する問題を回避し,既存のニューラルネットワーク解法よりも高精度な解を求める。 さらに、このアプローチは、以前の敵フレームワークで遭遇したトレーニングの不安定性問題を、効率的な方法で軽減する。 数値計算により,様々な確率微分方程式の解法における提案手法の有効性が示唆された。

We propose a new class of physics-informed neural networks, called Physics-Informed Generator-Encoder Adversarial Networks, to effectively address the challenges posed by forward, inverse, and mixed problems in stochastic differential equations. In these scenarios, while the governing equations are known, the available data consist of only a limited set of snapshots for system parameters. Our model consists of two key components: the generator and the encoder, both updated alternately by gradient descent. In contrast to previous approaches of directly matching the approximated solutions with real snapshots, we employ an indirect matching that operates within the lower-dimensional latent feature space. This method circumvents challenges associated with high-dimensional inputs and complex data distributions, while yielding more accurate solutions compared to existing neural network solvers. In addition, the approach also mitigates the training instability issues encountered in previous adversarial frameworks in an efficient manner. Numerical results provide compelling evidence of the effectiveness of the proposed method in solving different types of stochastic differential equations.
翻訳日:2023-11-06 15:10:22 公開日:2023-11-03
# エントロピーに基づくビジュアル説明による衛星部品認識のためのPEEKをYOLOv5に取り入れる

Taking a PEEK into YOLOv5 for Satellite Component Recognition via Entropy-based Visual Explanations ( http://arxiv.org/abs/2311.01703v1 )

ライセンス: Link先を確認
Mackenzie J. Meni, Trupti Mahendrakar, Olivia D. M. Raney, Ryan T. White, Michael L. Mayo, and Kevin Pilkiewicz(参考訳) 衝突のリスクの増大と、低軌道軌道(LEO)における宇宙ゴミの蓄積は、宇宙機の増加により重大な懸念を浴びている。 この危機への対処、特に非協力的で未確認の宇宙ゴミを扱うことは重要な課題である。 本稿では,小型チェイス衛星の自律群集を目標形状決定やLEOの近接運用のための安全な飛行軌道計画に活用するための取り組みに貢献する。 本研究は、衛星部品検出訓練対象検出モデル「You Only Look Once v5」(YOLOv5)の軌道上での利用について検討する。 このモデルには有望さが示されているが、本質的に解釈可能性の欠如は、安全クリティカルなミッションで使用するアルゴリズムを検証する上で重要な側面である人間の理解を妨げる。 決定過程を分析するために,モデルの隠れた層内における潜在表現の情報理論解析を利用したエントロピー知識抽出(peek)の確率論的説明を紹介する。 ハードウェア・イン・ザ・ループの実験の両方を通じて、PEEKはモデルの意思決定プロセスを照らし、その強さ、限界、バイアスを特定するのに役立つ。

The escalating risk of collisions and the accumulation of space debris in Low Earth Orbit (LEO) has reached critical concern due to the ever increasing number of spacecraft. Addressing this crisis, especially in dealing with non-cooperative and unidentified space debris, is of paramount importance. This paper contributes to efforts in enabling autonomous swarms of small chaser satellites for target geometry determination and safe flight trajectory planning for proximity operations in LEO. Our research explores on-orbit use of the You Only Look Once v5 (YOLOv5) object detection model trained to detect satellite components. While this model has shown promise, its inherent lack of interpretability hinders human understanding, a critical aspect of validating algorithms for use in safety-critical missions. To analyze the decision processes, we introduce Probabilistic Explanations for Entropic Knowledge extraction (PEEK), a method that utilizes information theoretic analysis of the latent representations within the hidden layers of the model. Through both synthetic in hardware-in-the-loop experiments, PEEK illuminates the decision-making processes of the model, helping identify its strengths, limitations and biases.
翻訳日:2023-11-06 15:10:04 公開日:2023-11-03
# 領域適応による医用画像のセグメンテーション : アンケート調査

Medical Image Segmentation with Domain Adaptation: A Survey ( http://arxiv.org/abs/2311.01702v1 )

ライセンス: Link先を確認
Yuemeng Li, Yong Fan(参考訳) 深層学習(DL)は様々な医用画像データ分析アプリケーションで顕著に成功している。 しかし、特にデータ分布の違いによるドメインシフトのため、異なるスキャナーを持つサイトでデータセットのトレーニングとテストが収集される場合、dlモデルが優れた一般化を達成することは依然として困難である。 ドメイン適応は、医療画像アプリケーションにおけるドメインギャップを緩和することで、この課題に対処する効果的な手段として現れています。 本稿では,DLに基づく医用画像セグメンテーションのための領域適応アプローチについて述べる。 まず、ドメイン適応の基礎となるモチベーションと背景知識を提示し、次に医療画像セグメンテーションにおけるドメイン適応アプリケーションの包括的レビューを行い、最終的に医療画像セグメンテーションの文脈におけるドメイン適応の方法論開発を促進する分野における課題、限界、今後の研究動向について論じる。 本研究の目的は,医学画像分割研究におけるドメイン適応の応用に関する最新の文献を研究者に提供することである。

Deep learning (DL) has shown remarkable success in various medical imaging data analysis applications. However, it remains challenging for DL models to achieve good generalization, especially when the training and testing datasets are collected at sites with different scanners, due to domain shift caused by differences in data distributions. Domain adaptation has emerged as an effective means to address this challenge by mitigating domain gaps in medical imaging applications. In this review, we specifically focus on domain adaptation approaches for DL-based medical image segmentation. We first present the motivation and background knowledge underlying domain adaptations, then provide a comprehensive review of domain adaptation applications in medical image segmentations, and finally discuss the challenges, limitations, and future research trends in the field to promote the methodology development of domain adaptation in the context of medical image segmentation. Our goal was to provide researchers with up-to-date references on the applications of domain adaptation in medical image segmentation studies.
翻訳日:2023-11-06 15:09:46 公開日:2023-11-03
# 量子スピンラダーにおける広範囲絡み合いハミルトニアンの数値的研究

Numerical Investigations of the Extensive Entanglement Hamiltonian in Quantum Spin Ladders ( http://arxiv.org/abs/2311.01699v1 )

ライセンス: Link先を確認
Chengshu Li and Xingyu Li and Yi-Neng Zhou(参考訳) 絡み合いは量子力学における重要な概念の1つであり、量子多体系を理解する上で欠かせない道具である。 本研究では,結合量子スピンチェーンの幅広い絡み合い特性の広範な数値的研究を行う。 この設定は、例えば、リーブ=シュルツ=マティスの定理を開系に拡張するのに有用であることが証明されており、エンタングルメント切断が系よりも1次元低い以前の研究の大半と対照的である。 我々は、ハミルトニアンの絡み合いが隙間のない場合、あるいは自発的対称性破壊挙動を示す場合に焦点を当てる。 さらに、共形場理論式を用いて、前者の場合の普遍的挙動を特定する。 我々の研究の結果は、解析的および数値的両方の大きな絡み合いのほとんどチャートされていない物理学をより体系的に探求するためのパラダイム的な出発点となる。

Entanglement constitutes one of the key concepts in quantum mechanics and serves as an indispensable tool in the understanding of quantum many-body systems. In this work, we perform extensive numerical investigations of extensive entanglement properties of coupled quantum spin chains. This setup has proven useful for e.g. extending the Lieb-Schultz-Mattis theorem to open systems, and contrasts the majority of previous research where the entanglement cut has one lower dimension than the system. We focus on the cases where the entanglement Hamiltonian is either gapless or exhibits spontaneous symmetry breaking behavior. We further employ conformal field theoretical formulae to identify the universal behavior in the former case. The results in our work can serve as a paradigmatic starting point for more systematic exploration of the largely uncharted physics of extensive entanglement, both analytical and numerical.
翻訳日:2023-11-06 15:09:29 公開日:2023-11-03
# 協調型マルチエージェントバンドの敵攻撃

Adversarial Attacks on Cooperative Multi-agent Bandits ( http://arxiv.org/abs/2311.01698v1 )

ライセンス: Link先を確認
Jinhang Zuo, Zhiyao Zhang, Xuchuang Wang, Cheng Chen, Shuai Li, John C.S. Lui, Mohammad Hajiesmaili, Adam Wierman(参考訳) 協調型マルチエージェント・バンディット(CMA2B)は、共有型マルチエージェント・バンディットゲームにおいて、複数のエージェントの協調作業を検討する。 我々は,このコラボレーションによって露見される潜在脆弱性を調査し,他のエージェントの判断に影響を及ぼすために,いくつかのエージェントに対する敵対的攻撃を検討する。 具体的には、エージェントが同じアームセットで操作する同質な設定と、エージェントが異なるアームセットを持つ異質な設定の両方において、CMA2Bに対する敵攻撃を研究する。 均質な設定では、1つのエージェントを標的にすることで、すべてのエージェントに特定のターゲットarm $t-o(t)$ を選択させると同時に、$t$ ラウンドで$o(t)$ 攻撃コストを発生させる攻撃戦略を提案する。 不均質な環境では、目標のアーム攻撃には線形攻撃コストが必要であり、最大数のエージェントに線形の後悔を強いる攻撃戦略を提案し、サブリニアのコストを伴い、少数のターゲットエージェントの観測のみを操作する。 提案手法の有効性を検証する数値実験を行った。

Cooperative multi-agent multi-armed bandits (CMA2B) consider the collaborative efforts of multiple agents in a shared multi-armed bandit game. We study latent vulnerabilities exposed by this collaboration and consider adversarial attacks on a few agents with the goal of influencing the decisions of the rest. More specifically, we study adversarial attacks on CMA2B in both homogeneous settings, where agents operate with the same arm set, and heterogeneous settings, where agents have distinct arm sets. In the homogeneous setting, we propose attack strategies that, by targeting just one agent, convince all agents to select a particular target arm $T-o(T)$ times while incurring $o(T)$ attack costs in $T$ rounds. In the heterogeneous setting, we prove that a target arm attack requires linear attack costs and propose attack strategies that can force a maximum number of agents to suffer linear regrets while incurring sublinear costs and only manipulating the observations of a few target agents. Numerical experiments validate the effectiveness of our proposed attack strategies.
翻訳日:2023-11-06 15:09:13 公開日:2023-11-03
# ユニバーサル摂動に基づく秘密鍵制御データハイディング

Universal Perturbation-based Secret Key-Controlled Data Hiding ( http://arxiv.org/abs/2311.01696v1 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang and Xiaoqian Chen(参考訳) ディープニューラルネットワーク(DNN)は、ほとんどの画像でDNNを欺くことができる単一の準許容摂動である普遍摂動に弱いことが示されている。 しかし,先行研究では,データ隠蔽におけるデータキャリアとしての普遍的摂動の利用可能性について,特にキー制御型データ隠蔽法について,検討が進んでいない。 本稿では,秘密鍵制御復号器を用いた単一の普遍摂動とデータ復号化を実現する,新しい普遍摂動に基づく秘密鍵制御データハイディング手法を提案する。 具体的には、1つの普遍的な摂動を最適化し、複数の秘密画像を隠蔽し、ほとんどのカバー画像に追加できるデータキャリアとして機能する。 次に、秘密鍵制御デコーダを考案し、異なる秘密鍵を用いて、ユニバーサル摂動によって構築された単一のコンテナ画像から異なる秘密画像を抽出する。 また,秘密画像の漏洩を防止するために,抑制損失関数を提案する。 さらに,デコーダの腐敗に対する能力を高めるため,ロバストなモジュールを採用する。 最後に、最適普遍摂動デコーダを見つけるための共役最適化戦略を提案する。 提案手法の有効性を実証するため,様々なデータセットを用いて実験を行った。 さらに、プラットフォーム(例えばWeChatやTwitter)で実施された物理的なテストは、提案手法の実用性を検証する。

Deep neural networks (DNNs) are demonstrated to be vulnerable to universal perturbation, a single quasi-perceptible perturbation that can deceive the DNN on most images. However, the previous works are focused on using universal perturbation to perform adversarial attacks, while the potential usability of universal perturbation as data carriers in data hiding is less explored, especially for the key-controlled data hiding method. In this paper, we propose a novel universal perturbation-based secret key-controlled data-hiding method, realizing data hiding with a single universal perturbation and data decoding with the secret key-controlled decoder. Specifically, we optimize a single universal perturbation, which serves as a data carrier that can hide multiple secret images and be added to most cover images. Then, we devise a secret key-controlled decoder to extract different secret images from the single container image constructed by the universal perturbation by using different secret keys. Moreover, a suppress loss function is proposed to prevent the secret image from leakage. Furthermore, we adopt a robust module to boost the decoder's capability against corruption. Finally, A co-joint optimization strategy is proposed to find the optimal universal perturbation and decoder. Extensive experiments are conducted on different datasets to demonstrate the effectiveness of the proposed method. Additionally, the physical test performed on platforms (e.g., WeChat and Twitter) verifies the usability of the proposed method in practice.
翻訳日:2023-11-06 15:08:56 公開日:2023-11-03
# 通信効率の良い連系非線形バンディット最適化

Communication-Efficient Federated Non-Linear Bandit Optimization ( http://arxiv.org/abs/2311.01695v1 )

ライセンス: Link先を確認
Chuanhao Li, Chong Liu and Yu-Xiang Wang(参考訳) フェデレーション最適化は、中央サーバの協調の下で複数のクライアント(モバイルデバイスや組織など)間の協調機能最適化の問題を研究する。 データは各クライアントによって分離され、常に分散化されているため、フェデレーション最適化はデータのプライバシを保持し、大規模コンピューティングを可能にする。 オンラインのタスク(例えば、キーボードアプリにおける次の単語予測など)にしばしばデプロイされるが、ほとんどの作業はオフライン問題として定式化されている。 フェデレーション・バンディットの最適化を考える数少ない例外は、線形、一般化線型、あるいは有界なrkhsノルムを持つ非パラメトリック関数クラスのような非常に単純化された関数クラスに限られる。 本稿では,汎用非線形目的関数を用いたバンドイット最適化のためのfeed-go-ucbという新しいアルゴリズムを提案する。 いくつかの軽度の条件下では、Fed-GO-UCBが累積的後悔と通信コストの両方でサブ線形レートを達成できることを厳格に証明する。 我々の理論分析の中心には、分散回帰オラクルと個別信頼セット構築があり、これは独立した関心を持つことができる。 また,提案アルゴリズムの有効性を実証的に評価した。

Federated optimization studies the problem of collaborative function optimization among multiple clients (e.g. mobile devices or organizations) under the coordination of a central server. Since the data is collected separately by each client and always remains decentralized, federated optimization preserves data privacy and allows for large-scale computing, which makes it a promising decentralized machine learning paradigm. Though it is often deployed for tasks that are online in nature, e.g., next-word prediction on keyboard apps, most works formulate it as an offline problem. The few exceptions that consider federated bandit optimization are limited to very simplistic function classes, e.g., linear, generalized linear, or non-parametric function class with bounded RKHS norm, which severely hinders its practical usage. In this paper, we propose a new algorithm, named Fed-GO-UCB, for federated bandit optimization with generic non-linear objective function. Under some mild conditions, we rigorously prove that Fed-GO-UCB is able to achieve sub-linear rate for both cumulative regret and communication cost. At the heart of our theoretical analysis are distributed regression oracle and individual confidence set construction, which can be of independent interests. Empirical evaluations also demonstrate the effectiveness of the proposed algorithm.
翻訳日:2023-11-06 15:08:35 公開日:2023-11-03
# シーングラフ生成とヒューマン・オブジェクトインタラクション検出のための統一トランスフォーマーベースフレームワークに向けて

Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection ( http://arxiv.org/abs/2311.01755v1 )

ライセンス: Link先を確認
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li(参考訳) SGG(Scene graph generation)とHOI(Human-object Interaction)は、オブジェクト間の関係のローカライズと認識を目的とした2つの重要な視覚的タスクである。 一般的な作業はこれらのタスクを個別のタスクとして扱い、個々のデータセットに合わせたタスク固有のモデルの開発につながる。 しかし、視覚的な関係性の存在は、人間と対象の相互作用の推論を著しく強化する重要な文脈的かつ複雑な関係的手がかりとなると仮定する。 このことは、シーングラフが人間と物体の相互作用を推測する情報源となる2つのタスクの間に自然に固有の関係があるかどうかを考える動機となる。 そこで本研究では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。 本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。 具体的には,一組の視覚特徴から関係トリプルを生成する作業を行う関係トランスフォーマを起動する。 次に, 変換器を用いたデコーダを用いて, 生成した三重項に基づく人間と物体の相互作用を予測する。 Visual Genome、V-COCO、HICO-DETなど、確立されたベンチマークデータセット間で行われた包括的な実験は、一般的な一段階SGGモデルと比較して、我々のSG2HOI+モデルの魅力的な性能を示している。 注目すべきことに,本手法は最先端のHOI手法と比較して競争性能が向上する。 さらに,我々のSG2HOI+は,SGGとHOIの両タスクをエンドツーエンドで共同訓練することで,個別化学習パラダイムと比較して,両タスクの大幅な改善が期待できる。

Scene graph generation (SGG) and human-object interaction (HOI) detection are two important visual tasks aiming at localising and recognising relationships between objects, and interactions between humans and objects, respectively. Prevailing works treat these tasks as distinct tasks, leading to the development of task-specific models tailored to individual datasets. However, we posit that the presence of visual relationships can furnish crucial contextual and intricate relational cues that significantly augment the inference of human-object interactions. This motivates us to think if there is a natural intrinsic relationship between the two tasks, where scene graphs can serve as a source for inferring human-object interactions. In light of this, we introduce SG2HOI+, a unified one-step model based on the Transformer architecture. Our approach employs two interactive hierarchical Transformers to seamlessly unify the tasks of SGG and HOI detection. Concretely, we initiate a relation Transformer tasked with generating relation triples from a suite of visual features. Subsequently, we employ another transformer-based decoder to predict human-object interactions based on the generated relation triples. A comprehensive series of experiments conducted across established benchmark datasets including Visual Genome, V-COCO, and HICO-DET demonstrates the compelling performance of our SG2HOI+ model in comparison to prevalent one-stage SGG models. Remarkably, our approach achieves competitive performance when compared to state-of-the-art HOI methods. Additionally, we observe that our SG2HOI+ jointly trained on both SGG and HOI tasks in an end-to-end manner yields substantial improvements for both tasks compared to individualized training paradigms.
翻訳日:2023-11-06 15:01:32 公開日:2023-11-03
# riskq: リスクに敏感なマルチエージェント強化学習価値因子化

RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization ( http://arxiv.org/abs/2311.01753v1 )

ライセンス: Link先を確認
Siqi Shen, Chennan Ma, Chao Li, Weiquan Liu, Yongquan Fu, Songzhu Mei, Xinwang Liu, Cheng Wang(参考訳) マルチエージェントシステムは、環境の不確実性、エージェントの様々なポリシー、部分的な可観測性によって特徴付けられる。 マルチエージェント強化学習(marl:multi-agent reinforcement learning)の文脈では,リスクに敏感なコーディネートと分散ポリシの学習が難しい。 リスクに敏感な marl における協調要件を定式化するために, リスクに敏感な individual-global-max (rigm) 原則を, 個人-global-max (igm) と distributional igm (digm) の原則の一般化として導入する。 この原則では、各エージェントのリスクに敏感なアクション選択の収集は、中央ポリシーのリスクに敏感なアクション選択と同等であるべきである。 現在のMARL値分解法は、リスク値(VaR)測定や歪んだリスク測定のような共通リスク指標のRIGM原則を満たさない。 そこで我々は,この制限に対処するリスクQを提案する。これは,その量子化を,エージェント単位の戻り分布ユーティリティの重み付き量子化混合としてモデル化することで,ジョイントリターン分布をモデル化する。 RiskQは、VaRのRIGM原則と歪んだリスクメトリクスを満たす。 riskqは広範な実験によって有望な性能を得ることができる。 riskqのソースコードはhttps://github.com/xmu-rl-3dv/riskqで入手できる。

Multi-agent systems are characterized by environmental uncertainty, varying policies of agents, and partial observability, which result in significant risks. In the context of Multi-Agent Reinforcement Learning (MARL), learning coordinated and decentralized policies that are sensitive to risk is challenging. To formulate the coordination requirements in risk-sensitive MARL, we introduce the Risk-sensitive Individual-Global-Max (RIGM) principle as a generalization of the Individual-Global-Max (IGM) and Distributional IGM (DIGM) principles. This principle requires that the collection of risk-sensitive action selections of each agent should be equivalent to the risk-sensitive action selection of the central policy. Current MARL value factorization methods do not satisfy the RIGM principle for common risk metrics such as the Value at Risk (VaR) metric or distorted risk measurements. Therefore, we propose RiskQ to address this limitation, which models the joint return distribution by modeling quantiles of it as weighted quantile mixtures of per-agent return distribution utilities. RiskQ satisfies the RIGM principle for the VaR and distorted risk metrics. We show that RiskQ can obtain promising performance through extensive experiments. The source code of RiskQ is available in https://github.com/xmu-rl-3dv/RiskQ.
翻訳日:2023-11-06 15:01:03 公開日:2023-11-03
# EmojiLM: 新しい絵文字言語をモデリングする

EmojiLM: Modeling the New Emoji Language ( http://arxiv.org/abs/2311.01751v1 )

ライセンス: Link先を確認
Letian Peng, Zilong Wang, Hang Liu, Zihan Wang, Jingbo Shang(参考訳) インターネットの急速な発展に伴い、オンラインソーシャルメディアは多様なコンテンツを通じて異なる背景を持つ人々を歓迎している。 絵文字の利用が増える傾向は、文化境界や言語境界を超えた絵文字の豊富な情報のおかげで顕著な傾向にある。 しかし、絵文字に関する現在の研究は単一の絵文字予測に限定されており、興味深い言語現象をさらに研究するためのデータ資源は限られている。 そこで本研究では,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを合成する。 並列コーパスに基づいて,テキスト・エモジ双方向翻訳を専門とするシーケンシャル・ツー・シーケンスモデルであるemojilmを蒸留する。 公開ベンチマークと人間評価に関する広範囲な実験により,提案モデルが強いベースラインを上回り,並列コーパスが絵文字に関連した下流タスクに有利であることを実証した。

With the rapid development of the internet, online social media welcomes people with different backgrounds through its diverse content. The increasing usage of emoji becomes a noticeable trend thanks to emoji's rich information beyond cultural or linguistic borders. However, the current study on emojis is limited to single emoji prediction and there are limited data resources available for further study of the interesting linguistic phenomenon. To this end, we synthesize a large text-emoji parallel corpus, Text2Emoji, from a large language model. Based on the parallel corpus, we distill a sequence-to-sequence model, EmojiLM, which is specialized in the text-emoji bidirectional translation. Extensive experiments on public benchmarks and human evaluation demonstrate that our proposed model outperforms strong baselines and the parallel corpus benefits emoji-related downstream tasks.
翻訳日:2023-11-06 15:00:39 公開日:2023-11-03
# エピデミック意思決定システムに基づくフェデミック強化学習

Epidemic Decision-making System Based Federated Reinforcement Learning ( http://arxiv.org/abs/2311.01749v1 )

ライセンス: Link先を確認
Yangxi Zhou, Junping Du, Zhe Xue, Zhenhui Pan, and Weikang Chen(参考訳) 疫病の意思決定は、政府が公衆の安全と経済発展を総合的に考慮し、公衆の健康と安全の緊急事態に対応するのに効果的に役立ちます。 疫病の意思決定は、政府が公衆の安全と経済発展を総合的に考慮し、公衆の健康と安全の緊急事態に対応するのに効果的に役立ちます。 いくつかの研究は、集中学習は政府が疫病の判断を効果的に行え、健康保障と経済発展のバランスが達成できることを示した。 いくつかの研究は、集中学習は政府が疫病の判断を効果的に行え、健康保障と経済発展のバランスが達成できることを示した。 しかし、流行データは限られたサンプルと高いプライバシーの特性を持つことが多い。 しかし、流行データは限られたサンプルと高いプライバシーの特性を持つことが多い。 このモデルは、データのプライバシーを保護しつつ、各地の流行状況データを協調訓練に組み合わせて、流行状況決定の学習モデルとして活用することができる。 実験により、強化されたフェデレーション学習は、強化された学習よりもより最適化された性能とリターンを得ることができ、強化されたフェデレーション学習はトレーニングモデルのトレーニング収束速度を加速することを示した。 クライアントのトレーニング収束速度を加速する。 同時に、A2Cは、実験的な比較を通じて、流行状況決定に最も適した強化学習モデルである。 PPOモデルが続く流行状況意思決定シナリオの学習モデルであり,DDPGの性能は不十分である。

Epidemic decision-making can effectively help the government to comprehensively consider public security and economic development to respond to public health and safety emergencies. Epidemic decision-making can effectively help the government to comprehensively consider public security and economic development to respond to public health and safety emergencies. Some studies have shown that intensive learning can effectively help the government to make epidemic decision, thus achieving the balance between health security and economic development. Some studies have shown that intensive learning can effectively help the government to make epidemic decision, thus achieving the balance between health security and economic development. However, epidemic data often has the characteristics of limited samples and high privacy. However, epidemic data often has the characteristics of limited samples and high privacy. This model can combine the epidemic situation data of various provinces for cooperative training to use as an enhanced learning model for epidemic situation decision, while protecting the privacy of data. The experiment shows that the enhanced federated learning can obtain more optimized performance and return than the enhanced learning, and the enhanced federated learning can also accelerate the training convergence speed of the training model. accelerate the training convergence speed of the client. At the same time, through the experimental comparison, A2C is the most suitable reinforcement learning model for the epidemic situation decision-making. learning model for the epidemic situation decision-making scenario, followed by the PPO model, and the performance of DDPG is unsatisfactory.
翻訳日:2023-11-06 15:00:26 公開日:2023-11-03
# フォン・ノイマン代数集合における$\alpha$-$z$-R\'{e}nyiの発散について

On $\alpha$-$z$-R\'{e}nyi divergence in the von Neumann algebra setting ( http://arxiv.org/abs/2311.01748v1 )

ライセンス: Link先を確認
Shinya Kato(参考訳) 一般フォン・ノイマン代数の設定における$\alpha$-$z$-R\'{e}nyi の発散は、Haagerup の非可換$L^p$-空間に基づいて検討する。 特に、$0 < \alpha < 1$ のとき、および $\alpha > 1$ のとき、ほぼすべての期待された性質を確立する。 付録では、H\"{o}lder's inequality in Haagerup non-commutative $L^p$-spaces についても等式を与える。

We will investigate the $\alpha$-$z$-R\'{e}nyi divergence in the general von Neumann algebra setting based on Haagerup non-commutative $L^p$-spaces. In particular, we establish almost all its expected properties when $0 < \alpha < 1$ and some of them when $\alpha > 1$. In an appendix we also give an equality condition for generalized H\"{o}lder's inequality in Haagerup non-commutative $L^p$-spaces.
翻訳日:2023-11-06 15:00:03 公開日:2023-11-03
# データ中心長周期画像認識

Data-Centric Long-Tailed Image Recognition ( http://arxiv.org/abs/2311.01744v1 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu, Puhua Chen(参考訳) ロングテールシナリオの文脈では、モデルは高品質なデータに対する強い需要を示す。 データ中心のアプローチは、データ量と品質の両方を高め、モデルパフォーマンスを改善することを目的としている。 これらのアプローチのうち、情報拡張は重要カテゴリーとして徐々に導入されている。 テールクラスにおけるサンプルの豊かさと量を増加させることで、モデル性能のバランスを実現する。 しかし,現在,情報拡張手法の有効性を説明する基礎的なメカニズムに関する研究が不足している。 したがって、ロングテール認識タスクにおける情報拡張の利用は、経験的かつ複雑な微調整に大きく依存する。 この作品には2つの大きな貢献がある。 まず,特徴多様性と分布シフトの観点から,情報拡張が有効である理由を明らかにするために,FDG(Feature Diversity Gain)の概念を導入する。 情報拡張性能はfdgによって説明でき、fdgが適切なバランスに達すると、その性能ピークに達することが判明した。 実験の結果,拡張データの選択にfdgを用いることで,モデルアーキテクチャの変更を必要とせず,さらなるモデル性能の向上が期待できることがわかった。 したがって、データ中心のアプローチは、新しいモデル構造の開発を超えて、ロングテール認識の分野で大きな可能性を秘めている。 さらに、データ中心のロングテール学習フレームワークのコアコンポーネントと基本的なタスクを初めて体系的に導入する。 これらのコアコンポーネントはシステムの実装とデプロイをガイドし、それに対応する基本的なタスクは研究領域を洗練・拡張する。

In the context of the long-tail scenario, models exhibit a strong demand for high-quality data. Data-centric approaches aim to enhance both the quantity and quality of data to improve model performance. Among these approaches, information augmentation has been progressively introduced as a crucial category. It achieves a balance in model performance by augmenting the richness and quantity of samples in the tail classes. However, there is currently a lack of research into the underlying mechanisms explaining the effectiveness of information augmentation methods. Consequently, the utilization of information augmentation in long-tail recognition tasks relies heavily on empirical and intricate fine-tuning. This work makes two primary contributions. Firstly, we approach the problem from the perspectives of feature diversity and distribution shift, introducing the concept of Feature Diversity Gain (FDG) to elucidate why information augmentation is effective. We find that the performance of information augmentation can be explained by FDG, and its performance peaks when FDG achieves an appropriate balance. Experimental results demonstrate that by using FDG to select augmented data, we can further enhance model performance without the need for any modifications to the model's architecture. Thus, data-centric approaches hold significant potential in the field of long-tail recognition, beyond the development of new model structures. Furthermore, we systematically introduce the core components and fundamental tasks of a data-centric long-tail learning framework for the first time. These core components guide the implementation and deployment of the system, while the corresponding fundamental tasks refine and expand the research area.
翻訳日:2023-11-06 14:59:52 公開日:2023-11-03
# 強化学習手法を用いた地下LoRaWANのエネルギー効率最適化:直接サテライトシナリオ

Energy Efficiency Optimization for Subterranean LoRaWAN Using A Reinforcement Learning Approach: A Direct-to-Satellite Scenario ( http://arxiv.org/abs/2311.01743v1 )

ライセンス: Link先を確認
Kaiqiang Lin, Muhammad Asad Ullah, Hirley Alves, Konstantin Mikhaylov, Tong Hao(参考訳) 地下のLoRaWANと非地球ネットワーク(NTN)の統合は、遠隔農業や災害救助活動において、経済的および社会的利益をもたらす。 LoRa変調は準直交拡散因子(SF)を利用して、データレート、空調、カバー、エネルギー消費を最適化する。 しかし,大規模なLloRaWAN NTNにおけるコSF干渉を最小限に抑えるために,エンドデバイスにSFを効果的に割り当てることは依然として困難である。 そこで本研究では,システムのエネルギー効率(EE)を最適化するための強化学習(RL)に基づくSF割当方式について検討する。 高密度ネットワークにおけるデバイスと環境の相互作用を効率的に捉えるために,マルチエージェント・デュリング・ダブルディープq-ネットワーク(mad3qn)とマルチエージェント・アドバンテージ・アクタ-クリティック(maa2c)アルゴリズムを用いたsfs割当て手法を提案する。 提案手法は, 極端地下直接サテライトシナリオの4つのベンチマークと比較して, 性能が向上する。 注目すべきことに、MAD3QNは収束率とEEの観点からMAA2Cを超える有望な可能性を示している。

The integration of subterranean LoRaWAN and non-terrestrial networks (NTN) delivers substantial economic and societal benefits in remote agriculture and disaster rescue operations. The LoRa modulation leverages quasi-orthogonal spreading factors (SFs) to optimize data rates, airtime, coverage and energy consumption. However, it is still challenging to effectively assign SFs to end devices for minimizing co-SF interference in massive subterranean LoRaWAN NTN. To address this, we investigate a reinforcement learning (RL)-based SFs allocation scheme to optimize the system's energy efficiency (EE). To efficiently capture the device-to-environment interactions in dense networks, we proposed an SFs allocation technique using the multi-agent dueling double deep Q-network (MAD3QN) and the multi-agent advantage actor-critic (MAA2C) algorithms based on an analytical reward mechanism. Our proposed RL-based SFs allocation approach evinces better performance compared to four benchmarks in the extreme underground direct-to-satellite scenario. Remarkably, MAD3QN shows promising potentials in surpassing MAA2C in terms of convergence rate and EE.
翻訳日:2023-11-06 14:59:32 公開日:2023-11-03
# グローバル最適化: 機械学習アプローチ

Global Optimization: A Machine Learning Approach ( http://arxiv.org/abs/2311.01742v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Georgios Margaritis(参考訳) グローバル最適化問題に対処する多くのアプローチは、通常、特定の数学的プリミティブに対する非線形制約の緩和に依存する。 これはブラックボックス、暗黙的、またはより一般的なプリミティブからなる制約のあるアプリケーションで制限される。 そのような制限に対処するため、Bertsimas と Ozturk (2023) は、超平面ベースのDecision-Trees を用いて非線形制約を近似し、それらの木を用いて元の問題を統一混合整数最適化 (MIO) 近似を構築することで、ブラックボックスのグローバルな最適化問題を解決する方法として OCTHaGOn を提案した。 私たちはこのアプローチの拡張を提供しています。 (i)勾配ブーストツリー、多層パーセプトロン、ポートベクターマシンなどの決定木以外のmio表現可能なmlモデルを用いて元の問題を近似する。 (ii)より正確な機械学習に基づく制約近似のための適応サンプリング手順の提案 (iii)機械学習モデルのサンプル依存学習の不確実性を考慮したロバスト最適化の活用、及び (iv)最後のmio近似の非可逆性に対処するために緩和の族を利用する。 次に、81のグローバル最適化インスタンスで拡張フレームワークをテストする。 大部分のインスタンスでは、ソリューション実現性と最適性が改善されている。 また,バロンと比較し,11例で最適性ギャップや解時間の改善を示した。

Many approaches for addressing Global Optimization problems typically rely on relaxations of nonlinear constraints over specific mathematical primitives. This is restricting in applications with constraints that are black-box, implicit or consist of more general primitives. Trying to address such limitations, Bertsimas and Ozturk (2023) proposed OCTHaGOn as a way of solving black-box global optimization problems by approximating the nonlinear constraints using hyperplane-based Decision-Trees and then using those trees to construct a unified mixed integer optimization (MIO) approximation of the original problem. We provide extensions to this approach, by (i) approximating the original problem using other MIO-representable ML models besides Decision Trees, such as Gradient Boosted Trees, Multi Layer Perceptrons and Suport Vector Machines, (ii) proposing adaptive sampling procedures for more accurate machine learning-based constraint approximations, (iii) utilizing robust optimization to account for the uncertainty of the sample-dependent training of the ML models, and (iv) leveraging a family of relaxations to address the infeasibilities of the final MIO approximation. We then test the enhanced framework in 81 Global Optimization instances. We show improvements in solution feasibility and optimality in the majority of instances. We also compare against BARON, showing improved optimality gaps or solution times in 11 instances.
翻訳日:2023-11-06 14:59:09 公開日:2023-11-03
# sac$^3$ : semantic-aware cross-check consistency によるブラックボックス言語モデルの信頼性の高い幻覚検出

SAC$^3$: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency ( http://arxiv.org/abs/2311.01740v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Zhuohang Li, Kamalika Das, Bradley A. Malin, Sricharan Kumar(参考訳) 幻覚検出は、現代言語モデル(LM)の信頼性を理解するための重要なステップである。 この目的を達成するために,lmsの自己矛盾に基づく既存の検出アプローチを再検討し,その結果生じる2種類の幻覚を明らかにする。 1)質問レベルと回答 2)自己整合性チェックのみでは効果的に識別できないモデルレベル。 この発見に基づいて, 自己一貫性検査の原理に基づいて拡張する新しいサンプリングベース手法,すなわち, 意味認識型クロスチェック一貫性(sac$^3$)を提案する。 我々のSAC$^3$アプローチは、意味論的に等価な質問摂動やモデル間応答整合性チェックなどの進歩を活用することで、質問レベルとモデルレベルの幻覚の両方を検出するための追加のメカニズムを取り入れている。 SAC$^3$は,複数の問合せおよびオープンドメイン生成ベンチマークにおいて,非実数文と実数文の両方を検出できる技術であることを示す。

Hallucination detection is a critical step toward understanding the trustworthiness of modern language models (LMs). To achieve this goal, we re-examine existing detection approaches based on the self-consistency of LMs and uncover two types of hallucinations resulting from 1) question-level and 2) model-level, which cannot be effectively identified through self-consistency check alone. Building upon this discovery, we propose a novel sampling-based method, i.e., semantic-aware cross-check consistency (SAC$^3$) that expands on the principle of self-consistency checking. Our SAC$^3$ approach incorporates additional mechanisms to detect both question-level and model-level hallucinations by leveraging advances including semantically equivalent question perturbation and cross-model response consistency checking. Through extensive and systematic empirical analysis, we demonstrate that SAC$^3$ outperforms the state of the art in detecting both non-factual and factual statements across multiple question-answering and open-domain generation benchmarks.
翻訳日:2023-11-06 14:58:43 公開日:2023-11-03
# 反強磁性バンデルワールにおけるロバスト室温強磁性

Robust room temperature ferromagnetism in an itinerant van der Waals antiferromagnet ( http://arxiv.org/abs/2311.01735v1 )

ライセンス: Link先を確認
Longyu Lu, Qing Wang, Hengli Duan, Kejia Zhu, Tao Hu, Yupeng Ma, Shengchun Shen, Yuran Niu, Jiatu Liu, Jianlin Wang, Sandy Adhitia Ekahana, Jan Dreiser, Y. Soh, Wensheng Yan, Guopeng Wang, Yimin Xiong, Ning Hao, Yalin Lu, Mingliang Tian(参考訳) 単相ファンデルワールス材の室温における反強磁性と強磁性の共存は、特に2次元の限界内で、大きな研究の関心を集めている。 しかし、そのような素材は稀である。 そこで本研究では, 反強磁性体 (fe0.56co0.44)5gete2 の強磁性秩序が室温まで識別可能であり, 単層限界にまで達する一元性ファンデルワールス反強磁性体 (fe0.56co0.44)5gete2 を導入する。 注目すべき現象は、高温での明らかな奇数の層数効果(例えば、t = 150 k)である。 このような振る舞いは線形連鎖モデルによって説明できる。 特に興味深いのは、低温で偶層フレークで観測される強磁性秩序(例えばt = 2 k)であり、これはスピン偏極欠陥に起因する可能性がある。 磁場強度、層数、温度の複雑な相互作用は様々な現象を引き起こし、新しい物理学だけでなく実用的な応用にも期待が持たれる。

The coexistence of antiferromagnetic and ferromagnetic order at room temperature in single-phase van der Waals materials, particularly within the two-dimensional limit, has attracted significant research interest. Nonetheless, such materials are rare. In this work, we introduce an itinerant van der Waals antiferromagnet (Fe0.56Co0.44)5GeTe2, where the ferromagnetic order of its exfoliated flakes remains discernible up to room temperature, extending down to the monolayer limit. A notable phenomenon observed is the evident odd-even layer-number effect at high temperature (e.g., T = 150 K). Such behaviour can be expounded by a linear-chain model. Of particular interest is the robust ferromagnetic order observed in even-layer flakes at low temperature (e.g., T = 2 K), which could potentially be attributed to spin-polarized defects. The intricate interplay among magnetic field strength, layer number, and temperature gives rise to a diverse array of phenomena, holding promise not only for new physics but also for practical applications.
翻訳日:2023-11-06 14:58:22 公開日:2023-11-03
# MixCon3D:3D表現の強化のためのマルチビューとクロスモーダルコントラスト学習

MixCon3D: Synergizing Multi-View and Cross-Modal Contrastive Learning for Enhancing 3D Representation ( http://arxiv.org/abs/2311.01734v1 )

ライセンス: Link先を確認
Yipeng Gao, Zeyu Wang, Wei-Shi Zheng, Cihang Xie, Yuyin Zhou(参考訳) コントラスト学習は、テキスト、イメージ、ポイントクラウドと共同で、3Dオープンワールド理解のための有望なパラダイムとして登場した。 本稿では,2次元画像と3次元点雲の相補的な情報を組み合わせて,コントラスト学習を強化するMixCon3Dを提案する。 マルチビュー2D画像の統合により、MixCon3Dは、現実世界の3Dオブジェクトをより正確かつ包括的に描写し、テキストアライメントを強化することで、従来のトリモーダル表現を強化する。 さらに、3次元コントラスト学習パラダイムのための様々なトレーニングレシピについて、最初の徹底的な調査を行い、パフォーマンスを向上した確固としたベースラインを構築した。 3つの代表的なベンチマークで行った大規模な実験の結果,提案手法は従来の1,156カテゴリのObjaverse-LVISデータセットを5.7%上回った。 さらに,テキストから3dへの検索やポイントクラウドキャプションなど,より多くのアプリケーションにおいて,このアプローチの有効性を示す。 コードはhttps://github.com/UCSC-VLAA/MixCon3Dで公開されている。

Contrastive learning has emerged as a promising paradigm for 3D open-world understanding, jointly with text, image, and point cloud. In this paper, we introduce MixCon3D, which combines the complementary information between 2D images and 3D point clouds to enhance contrastive learning. With the further integration of multi-view 2D images, MixCon3D enhances the traditional tri-modal representation by offering a more accurate and comprehensive depiction of real-world 3D objects and bolstering text alignment. Additionally, we pioneer the first thorough investigation of various training recipes for the 3D contrastive learning paradigm, building a solid baseline with improved performance. Extensive experiments conducted on three representative benchmarks reveal that our method renders significant improvement over the baseline, surpassing the previous state-of-the-art performance on the challenging 1,156-category Objaverse-LVIS dataset by 5.7%. We further showcase the effectiveness of our approach in more applications, including text-to-3D retrieval and point cloud captioning. The code is available at https://github.com/UCSC-VLAA/MixCon3D.
翻訳日:2023-11-06 14:58:03 公開日:2023-11-03
# proto-lm: 大言語モデルにおける組み込み解釈性のためのネットワークベースのプロトタイプフレームワーク

Proto-lm: A Prototypical Network-Based Framework for Built-in Interpretability in Large Language Models ( http://arxiv.org/abs/2311.01732v1 )

ライセンス: Link先を確認
Sean Xie, Soroush Vosoughi and Saeed Hassanpour(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、解釈可能性の欠如が大きな関心事となっている。 LLMの現在の解釈法は、推論時間後に適用されるポストホックであり、低レベルの特徴や高レベルのテキストユニットでの説明可能性の欠如といった制限がある。 本稿では,ネットワークベースのホワイトボックスフレームワークであるproto-lmについて紹介する。 提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。 LLMにおける解釈可能性の新たなアプローチは、パフォーマンスを犠牲にすることなく、より解釈可能なモデルの道を開くことができる。

Large Language Models (LLMs) have significantly advanced the field of Natural Language Processing (NLP), but their lack of interpretability has been a major concern. Current methods for interpreting LLMs are post hoc, applied after inference time, and have limitations such as their focus on low-level features and lack of explainability at higher level text units. In this work, we introduce proto-lm, a prototypical network-based white-box framework that allows LLMs to learn immediately interpretable embeddings during the fine-tuning stage while maintaining competitive performance. Our method's applicability and interpretability are demonstrated through experiments on a wide range of NLP tasks, and our results indicate a new possibility of creating interpretable models without sacrificing performance. This novel approach to interpretability in LLMs can pave the way for more interpretable models without the need to sacrifice performance.
翻訳日:2023-11-06 14:57:41 公開日:2023-11-03
# アンサンブルCNN変換器を用いた医用画像の局所的・グローバル的特徴のキャプチャ

Capturing Local and Global Features in Medical Images by Using Ensemble CNN-Transformer ( http://arxiv.org/abs/2311.01731v1 )

ライセンス: Link先を確認
Javad Mirzapour Kaleybar, Hooman Saadat, Hooman Khaloo(参考訳) 本稿では,医療画像解析のための制御可能アンサンブル変換器とCNN (CNN) という,画期的な分類モデルを提案する。 CETCモデルは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーの強力な能力を組み合わせて、医療画像に存在する局所的特徴とグローバル的特徴を効果的に捉える。 モデルアーキテクチャは、畳み込みエンコーダブロック(CEB)、転置畳み込みデコーダブロック(TDB)、トランスフォーマー分類ブロック(TCB)の3つの主要コンポーネントから構成される。 CEBは、異なるスケールで複数のローカル機能をキャプチャし、VGGNet、ResNet、MobileNetのコンポーネントをバックボーンとして描画する責任がある。 この組み合わせを利用することで、CEBはローカル機能を効果的に検出し、エンコードすることができる。 一方、TDBは、アンサンブル係数を用いてキャプチャされた特徴をデコードし、要約するサブデコーダで構成されている。 これにより、モデルは複数のスケールからの情報を効率的に統合できる。 最後に、TBはSwTバックボーンと特別に設計された予測ヘッドを使用して、グローバルな特徴を捉え、画像全体の包括的な理解を確保する。 この論文は、転送学習、データ前処理技術、トレーニング設定など、実験的なセットアップと実装に関する詳細な情報を提供する。 CETCモデルは、2つの公開可能なCOVID-19データセットを使用してトレーニングされ、評価される。 注目すべきは、このモデルは様々な評価指標で既存の最先端モデルを上回っていることだ。 実験の結果,CETCモデルの優位性を明らかに示し,医療画像の正確かつ効率的な解析の可能性を強調した。

This paper introduces a groundbreaking classification model called the Controllable Ensemble Transformer and CNN (CETC) for the analysis of medical images. The CETC model combines the powerful capabilities of convolutional neural networks (CNNs) and transformers to effectively capture both local and global features present in medical images. The model architecture comprises three main components: a convolutional encoder block (CEB), a transposed-convolutional decoder block (TDB), and a transformer classification block (TCB). The CEB is responsible for capturing multi-local features at different scales and draws upon components from VGGNet, ResNet, and MobileNet as backbones. By leveraging this combination, the CEB is able to effectively detect and encode local features. The TDB, on the other hand, consists of sub-decoders that decode and sum the captured features using ensemble coefficients. This enables the model to efficiently integrate the information from multiple scales. Finally, the TCB utilizes the SwT backbone and a specially designed prediction head to capture global features, ensuring a comprehensive understanding of the entire image. The paper provides detailed information on the experimental setup and implementation, including the use of transfer learning, data preprocessing techniques, and training settings. The CETC model is trained and evaluated using two publicly available COVID-19 datasets. Remarkably, the model outperforms existing state-of-the-art models across various evaluation metrics. The experimental results clearly demonstrate the superiority of the CETC model, emphasizing its potential for accurately and efficiently analyzing medical images.
翻訳日:2023-11-06 14:57:26 公開日:2023-11-03
# CDGraph:拡散モデルによる二重条件ソーシャルグラフの合成

CDGraph: Dual Conditional Social Graph Synthesizing via Diffusion Model ( http://arxiv.org/abs/2311.01729v1 )

ライセンス: Link先を確認
Jui-Yi Tsai, Ya-Wen Teng, Ho Chiok Yew, De-Nian Yang, Lydia Y. Chen(参考訳) 生成モデルによって合成されるソーシャルグラフは、データの不足やユーザのプライバシーに関する懸念から、ますます需要が高まっている。 ソーシャルネットワークを生成する上で重要なパフォーマンス基準の1つは、特定のメンバーシップと財務状態を持つユーザのような特定の条件への忠実さである。 近年の拡散モデルは画像生成において顕著な性能を示したが, 条件付きソーシャルグラフの文脈において, 合成グラフの有効性は未だ検討されていない。 本稿では,2つの条件に基づいてグラフを訓練・合成する,ソーシャルネットワークのための最初の条件拡散モデルCDGraphを提案する。 本稿では,CDGraphのデノベーションプロセスにおける共進化的依存関係を2つの条件間の相互依存関係を捕捉し,さらに,特定の条件を満たすことなくノード間の接続性を維持するために,社会的ホモフィリと社会的感染を組み込むことを提案する。 さらに,2つの条件の相互依存を通じて拡散過程の訓練を指導する新たな分類器損失を導入する。 既存の4つのグラフ生成手法であるSPECTRE, GSM, EDGE, DiGressに対するCDGraphの評価を行った。 以上の結果から,CDGraphから生成したグラフは,ベースラインよりも多くのソーシャル・ネットワーク・メトリクスにおいて,より高い二重条件妥当性と低差を実現し,二重条件のソーシャル・グラフを生成する能力を示した。

The social graphs synthesized by the generative models are increasingly in demand due to data scarcity and concerns over user privacy. One of the key performance criteria for generating social networks is the fidelity to specified conditionals, such as users with certain membership and financial status. While recent diffusion models have shown remarkable performance in generating images, their effectiveness in synthesizing graphs has not yet been explored in the context of conditional social graphs. In this paper, we propose the first kind of conditional diffusion model for social networks, CDGraph, which trains and synthesizes graphs based on two specified conditions. We propose the co-evolution dependency in the denoising process of CDGraph to capture the mutual dependencies between the dual conditions and further incorporate social homophily and social contagion to preserve the connectivity between nodes while satisfying the specified conditions. Moreover, we introduce a novel classifier loss, which guides the training of the diffusion process through the mutual dependency of dual conditions. We evaluate CDGraph against four existing graph generative methods, i.e., SPECTRE, GSM, EDGE, and DiGress, on four datasets. Our results show that the generated graphs from CDGraph achieve much higher dual-conditional validity and lower discrepancy in various social network metrics than the baselines, thus demonstrating its proficiency in generating dual-conditional social graphs.
翻訳日:2023-11-06 14:57:00 公開日:2023-11-03
# データ拡張型ニューラルネットワークによる量子プロセスのフレキシブルエラー低減

Flexible Error Mitigation of Quantum Processes with Data Augmentation Empowered Neural Model ( http://arxiv.org/abs/2311.01727v1 )

ライセンス: Link先を確認
Manwen Liao, Yan Zhu, Giulio Chiribella, Yuxiang Yang(参考訳) ニューラルネットワークは、量子コンピューティングの領域における様々なタスクでその効果を示している。 しかし、実用的な量子進歩を実現するための重要なステップである量子エラー軽減への応用は、ノイズフリー統計に頼って制限されている。 そこで本研究では,誤り軽減のためのデータ強化型ニューラルネットワーク(daem)を提案する。 本モデルでは、特定のノイズの種類や測定設定について事前の知識を必要とせず、目的の量子プロセスのノイズ測定結果からのみノイズフリー統計を推定でき、実用的な実装に非常に適している。 数値実験では、マルコフノイズや非マルコフノイズを含む様々な種類のノイズを緩和する際のモデルの性能が従来の誤差緩和法と比較して優れていることを示す。 さらに,このモデルを用いて,大規模量子システムや連続変数量子状態を含む多様な量子プロセスにおける誤差を軽減することで,その汎用性を示す。 この強力なデータ拡張による誤り緩和のためのニューラルモデルにより、実用的な応用においてより信頼性が高く堅牢な量子技術を実現するための確立された基盤が確立される。

Neural networks have shown their effectiveness in various tasks in the realm of quantum computing. However, their application in quantum error mitigation, a crucial step towards realizing practical quantum advancements, has been restricted by reliance on noise-free statistics. To tackle this critical challenge, we propose a data augmentation empowered neural model for error mitigation (DAEM). Our model does not require any prior knowledge about the specific noise type and measurement settings and can estimate noise-free statistics solely from the noisy measurement results of the target quantum process, rendering it highly suitable for practical implementation. In numerical experiments, we show the model's superior performance in mitigating various types of noise, including Markovian noise and Non-Markovian noise, compared with previous error mitigation methods. We further demonstrate its versatility by employing the model to mitigate errors in diverse types of quantum processes, including those involving large-scale quantum systems and continuous-variable quantum states. This powerful data augmentation-empowered neural model for error mitigation establishes a solid foundation for realizing more reliable and robust quantum technologies in practical applications.
翻訳日:2023-11-06 14:56:36 公開日:2023-11-03
# afpq: llmsの非対称浮動小数点量子化

AFPQ: Asymmetric Floating Point Quantization for LLMs ( http://arxiv.org/abs/2311.01792v1 )

ライセンス: Link先を確認
Yijia Zhang, Sicheng Zhang, Shijie Cao, Dayou Du, Jianyu Wei, Ting Cao, Ningyi Xu(参考訳) 大規模言語モデル(llm)は様々なタスクで優れたパフォーマンスを示すが、メモリ容量と帯域幅の制限によるデプロイメントの課題に直面する。 低ビット重み量子化はメモリを節約し、推論を加速する。 浮動小数点(FP)フォーマットはLLM量子化において優れた性能を示すが、小さなグループサイズやサブ-4ビットでは性能が良くない傾向にある。 その理由は、以前のFP量子化における非対称性の欠如が、LLM重みテンソルの非対称値分布を扱うのに不適であるからである。 本研究では、正値と負値の別スケールを設定する非対称FP量子化(AFPQ)を提案する。 提案手法は精度が大幅に向上し,gptqやawqなど他の量子化手法への接続が容易になり,性能が向上する。 さらに、非対称整数(INT)量子化と比較して追加の記憶は不要である。 コードはhttps://github.com/zhangsichengsjtu/afpqで入手できる。

Large language models (LLMs) show great performance in various tasks, but face deployment challenges from limited memory capacity and bandwidth. Low-bit weight quantization can save memory and accelerate inference. Although floating-point (FP) formats show good performance in LLM quantization, they tend to perform poorly with small group sizes or sub-4 bits. We find the reason is that the absence of asymmetry in previous FP quantization makes it unsuitable for handling asymmetric value distribution of LLM weight tensors. In this work, we propose asymmetric FP quantization (AFPQ), which sets separate scales for positive and negative values. Our method leads to large accuracy improvements and can be easily plugged into other quantization methods, including GPTQ and AWQ, for better performance. Besides, no additional storage is needed compared with asymmetric integer (INT) quantization. The code is available at https://github.com/zhangsichengsjtu/AFPQ.
翻訳日:2023-11-06 14:49:44 公開日:2023-11-03
# TCM-GPT:漢方医学におけるドメイン適応のための大規模言語モデルの効率的な事前学習

TCM-GPT: Efficient Pre-training of Large Language Models for Domain Adaptation in Traditional Chinese Medicine ( http://arxiv.org/abs/2311.01786v1 )

ライセンス: Link先を確認
Guoxing Yang, Jianyu Shi, Zan Wang, Xiaohong Liu, Guangyu Wang(参考訳) 事前学習と微調整は、様々な自然言語処理(NLP)タスクにまたがる有望なパラダイムとして登場した。 事前訓練された大規模言語モデル(LLM)の有効性は、医学分野、特に伝統的な漢方医学(TCM)の文脈において、さらなる強化が期待されている。 しかしながら、これらの一般モデルの特定の領域への応用は、ドメイン知識の欠如、一意的な目的、計算効率などの課題により、しばしば準最適結果をもたらす。 また、漢方医学などの専門分野における効果には総合的な評価が必要である。 上記の課題に対処するため、ドメイン固有コーパスを用いた効率的な事前学習を行うTCMDA(TCM Domain Adaptation)アプローチを提案する。 具体的には,まずドメインキーワードを識別し,一般コーパスから検索することで,tcm固有のコーパスであるtcm-corpus-1bを構築する。 そこで,本論文では,事前学習したモデルの重みを冷凍するLoRAを利用して,事前学習および微調整のために,特定の高密度層を効率よく訓練し,TCM-GPT-7BというTCM関連タスクと効率的に整合させる。 さらにTCM検査とTCM診断の2つの課題について広範な実験を行った。 TCM-GPT-7Bは両方のデータセットで最高のパフォーマンスをアーカイブし、それぞれ17%と12%の精度で他のモデルを上回った。 我々の知る限り、我々の研究は、TCMドメインに70億のパラメータを持つ大規模言語モデルのドメイン適応の先駆的な検証である。 今後,TCM と NLP の学際開発を促進するため,TCMCorpus-1B と TCM-GPT-7B の両モデルをリリースする。

Pre-training and fine-tuning have emerged as a promising paradigm across various natural language processing (NLP) tasks. The effectiveness of pretrained large language models (LLM) has witnessed further enhancement, holding potential for applications in the field of medicine, particularly in the context of Traditional Chinese Medicine (TCM). However, the application of these general models to specific domains often yields suboptimal results, primarily due to challenges like lack of domain knowledge, unique objectives, and computational efficiency. Furthermore, their effectiveness in specialized domains, such as Traditional Chinese Medicine, requires comprehensive evaluation. To address the above issues, we propose a novel domain specific TCMDA (TCM Domain Adaptation) approach, efficient pre-training with domain-specific corpus. Specifically, we first construct a large TCM-specific corpus, TCM-Corpus-1B, by identifying domain keywords and retreving from general corpus. Then, our TCMDA leverages the LoRA which freezes the pretrained model's weights and uses rank decomposition matrices to efficiently train specific dense layers for pre-training and fine-tuning, efficiently aligning the model with TCM-related tasks, namely TCM-GPT-7B. We further conducted extensive experiments on two TCM tasks, including TCM examination and TCM diagnosis. TCM-GPT-7B archived the best performance across both datasets, outperforming other models by relative increments of 17% and 12% in accuracy, respectively. To the best of our knowledge, our study represents the pioneering validation of domain adaptation of a large language model with 7 billion parameters in TCM domain. We will release both TCMCorpus-1B and TCM-GPT-7B model once accepted to facilitate interdisciplinary development in TCM and NLP, serving as the foundation for further study.
翻訳日:2023-11-06 14:49:27 公開日:2023-11-03
# 動的調整イジングモデルにおける経路依存性相関とその短時間挙動:Magnus展開の適用

Path-dependent correlations in dynamically tuned Ising models and its short-time behavior: application of Magnus expansion ( http://arxiv.org/abs/2311.01785v1 )

ライセンス: Link先を確認
Xin Wang, Bo Yang, Bo Zhang, and Bo Xiong(参考訳) Rydberg原子系によって実現された動的チューニングイジングモデルにおける反強磁性(AF)相関の蓄積について検討する。 短時間のスケールで、接続された相関関数の高階解析式を導出するためにMagnus expansion (ME) を適用し、1D鎖、2 \times n$格子、$n \times n$格子などの異なる格子幾何学の正確な数値結果と比較する。 クエンチ力学におけるAF相関の蓄積を正確に記述するには,高次展開が必要である。 さらに, 2次元正方形格子を通して, 同一マンハッタン距離におけるaf相関の大きさは, 長大な経路と異なる経路が相関の蓄積に著しく関与するまで, 十分長い時間で最短経路の数に比例することがわかった。 最後に,本研究の成果を実現するための実験装置を提案する。

We study the buildup of antiferromagnetic (AF) correlation in the dynamically tuned Ising models which are realized by the Rydberg atomic system. In short-time scale, we apply Magnus expansion (ME) to derive the high-order analytic expression of the connected correlation functions and compare it with exactly numerical results for the different lattice geometries, e.g., 1D chain, $2 \times n$ lattice, and $n \times n$ lattice. It is shown that the high-order expansion is required to describe accurately the buildup of AF correlation in the quench dynamics. Moreover, through a 2D square lattice, we find that the magnitude of AF correlation for the same Manhattan distance is proportional to the number of the shortest paths in a sufficiently long time until long and distinct paths are involved significantly with the buildup of the correlation. Finally, we propose an applicable experimental setup to realize our findings.
翻訳日:2023-11-06 14:48:57 公開日:2023-11-03
# 半教師付き分類と回帰を統一する理論的に保証されたチェビシェフ制約による疑似擬似ラベルの生成

Generating Unbiased Pseudo-labels via a Theoretically Guaranteed Chebyshev Constraint to Unify Semi-supervised Classification and Regression ( http://arxiv.org/abs/2311.01782v1 )

ライセンス: Link先を確認
Jiaqi Wu, Junbiao Pang, Qingming Huang(参考訳) 半教師付き分類と回帰はコンピュータビジョンにとって事実上困難なタスクである。 しかし、半教師付き分類法は回帰タスクにはほとんど適用されない。 分類におけるしきい値-擬似ラベルプロセス(T2L)は、信頼を利用してラベルの品質を決定する。 分類タスクでは成功するが、回帰タスクでは非効率である。 本質的には、回帰は高品質のラベルを生成するために偏りのないメソッドも必要である。 一方、分類のためのT2Lは、信頼度がバイアス法によって生成される場合、しばしば失敗する。 そこで,本稿では,不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案し,複数の予測を組み合わせることで,下位ラベルから優れたラベルを生成する。 高品質のラベルに関しては、unbiasedメソッドは自然にt2lの欠点を避ける。 特に,複数の分岐を持つ非バイアス疑似ラベルネットワーク (ubpl network) を提案し,複数の予測を疑似ラベルとして組み合わせ,chebyshev制約に基づいて特徴的相関損失 (fd損失) を提案する。 原則として,本手法は分類と回帰の両方に使用することができ,平均教師,FixMatch,DualPoseなど,任意の半教師付きフレームワークに容易に拡張することができる。 提案手法は,ポーズ推定データセットのマウス,FLIC,LSP,分類データセットのCIFAR10/100,SVHNにおいて,SOTAよりも優れた性能を実現する。

Both semi-supervised classification and regression are practically challenging tasks for computer vision. However, semi-supervised classification methods are barely applied to regression tasks. Because the threshold-to-pseudo label process (T2L) in classification uses confidence to determine the quality of label. It is successful for classification tasks but inefficient for regression tasks. In nature, regression also requires unbiased methods to generate high-quality labels. On the other hand, T2L for classification often fails if the confidence is generated by a biased method. To address this issue, in this paper, we propose a theoretically guaranteed constraint for generating unbiased labels based on Chebyshev's inequality, combining multiple predictions to generate superior quality labels from several inferior ones. In terms of high-quality labels, the unbiased method naturally avoids the drawback of T2L. Specially, we propose an Unbiased Pseudo-labels network (UBPL network) with multiple branches to combine multiple predictions as pseudo-labels, where a Feature Decorrelation loss (FD loss) is proposed based on Chebyshev constraint. In principle, our method can be used for both classification and regression and can be easily extended to any semi-supervised framework, e.g. Mean Teacher, FixMatch, DualPose. Our approach achieves superior performance over SOTAs on the pose estimation datasets Mouse, FLIC and LSP, as well as the classification datasets CIFAR10/100 and SVHN.
翻訳日:2023-11-06 14:48:37 公開日:2023-11-03
# 奇数重み誤差を補正するMajorana量子ビット符号

Majorana qubit codes that also correct odd-weight errors ( http://arxiv.org/abs/2311.01779v1 )

ライセンス: Link先を確認
Sourav Kundu, Ben W. Reichardt(参考訳) テトロンアーキテクチャは、トポロジカル量子計算の有望な候補である。 各テトロンマヨラナ島は4つのマヨラナゼロモードを持ち、測定可能な範囲は1テトロンあたり0または2つのマヨラナに制限される。 このような測定は、いわゆる「ボソニックエラー」を修正するのに十分であることが知られており、これはテトロン当たりのマヨラナの数に影響を及ぼす。 このような測定は、陽電子当たりのマヨラナの奇数に影響を与える「フェルミオン誤差」を補正するのにも十分であることを示す。 対照的に、それまでのテトロンの「フェルミオン誤差補正」の提案は、より実験的課題をもたらす。 安定化器群にテトロンを含めることで、「フェルミオン符号」は従来の「ボソニック符号」から導出できることを示す。

The tetron architecture is a promising candidate for topological quantum computation. Each tetron Majorana island has four Majorana zero modes, and possible measurements are constrained to span zero or two Majoranas per tetron. Such measurements are known to be sufficient for correcting so-called "bosonic errors," which affect an even number of Majoranas per tetron. We demonstrate that such measurements are also sufficient for correcting "fermionic errors," which affect an odd number of Majoranas per tetron. In contrast, previous proposals for "fermionic error correction" on tetrons introduce more experimental challenges. We show that "fermionic codes" can be derived from traditional "bosonic codes" by inclusion of tetrons in the stabilizer group.
翻訳日:2023-11-06 14:48:14 公開日:2023-11-03
# CheX-Nomaly:機械学習を用いた胸部X線からの肺異常の分離

CheX-Nomaly: Segmenting Lung Abnormalities from Chest Radiographs using Machine Learning ( http://arxiv.org/abs/2311.01777v1 )

ライセンス: Link先を確認
Sanskriti Singh(参考訳) 胸部x線写真(cxr)における異常のグローバルチャレンジは、主に知覚エラーと関連しており、医療提供者は誤分類ではなく、異常の正確な位置を特定するのに苦労している。 現在,疾患特異的セグメンテーションモデルによってこの問題に対処している。 残念なことに、これらのモデルはすべての胸部疾患に対する一般化性の欠如のために、この分野ではリリースできない。 バイナリモデルは、データセットに表現されていない病気に遭遇すると、パフォーマンスが悪くなります。 トランスファー学習手法と革新的なコントラスト学習手法を組み込んだ,バイナリローカライズ型u-netモデルであるchex-nomalyを提案する。 VinDr-CXRデータセットでトレーニングされ、"発見できない"ケースに加えて、14の異なる疾患を含む。 対照学習法を取り入れ,境界ボックスとその病種を分離することで,異常局在モデルの一般化可能性を大幅に向上できることを示す。 また,境界ボックスセグメンテーションにおけるU-nets性能を向上させるために,新たな損失手法を提案する。 CheX-nomalyを導入することで、胸部疾患の診断精度を高めるための有望なソリューションを提供する。

The global challenge in chest radiograph X-ray (CXR) abnormalities often being misdiagnosed is primarily associated with perceptual errors, where healthcare providers struggle to accurately identify the location of abnormalities, rather than misclassification errors. We currently address this problem through disease-specific segmentation models. Unfortunately, these models cannot be released in the field due to their lack of generalizability across all thoracic diseases. A binary model tends to perform poorly when it encounters a disease that isn't represented in the dataset. We present CheX-nomaly: a binary localization U-net model that leverages transfer learning techniques with the incorporation of an innovative contrastive learning approach. Trained on the VinDr-CXR dataset, which encompasses 14 distinct diseases in addition to 'no finding' cases, my model achieves generalizability across these 14 diseases and others it has not seen before. We show that we can significantly improve the generalizability of an abnormality localization model by incorporating a contrastive learning method and dissociating the bounding boxes with its disease class. We also introduce a new loss technique to apply to enhance the U-nets performance on bounding box segmentation. By introducing CheX-nomaly, we offer a promising solution to enhance the precision of chest disease diagnosis, with a specific focus on reducing the significant number of perceptual errors in healthcare.
翻訳日:2023-11-06 14:48:01 公開日:2023-11-03
# UP4LS:言語ステガナリシスを促進する複数の属性によるユーザプロファイルの構築

UP4LS: User Profile Constructed by Multiple Attributes for Enhancing Linguistic Steganalysis ( http://arxiv.org/abs/2311.01775v1 )

ライセンス: Link先を確認
Yihao Wang, Ruiqi Song, Ru Zhang, and Jianyi Liu(参考訳) 言語的ステガナリシス(LS)タスクは、言語的ステガナリシスによって生成されるステゴを効果的に検出することを目的としている。 既存のLSメソッドは、特有のユーザ特性を見落とし、ソーシャルネットワークのパフォーマンスが低下する。 ステゴの限られた発生は検出をさらに複雑にする。 本稿では,ユーザプロファイルを用いた新しいフレームワークであるUP4LSを提案する。 具体的には、投稿内容を掘り下げることで、執筆習慣、心理的状態、焦点領域などのユーザ属性を探索し、LSのユーザプロファイルを構築する。 各属性に対して、識別された特徴抽出モジュールを設計する。 抽出した特徴を既存手法のディープラーニングネットワークを介して高次元ユーザ特徴にマッピングする。 次に、言語モデルを用いてコンテンツの特徴を抽出する。 ユーザとコンテンツ機能は統合され、機能表現を最適化する。 トレーニングフェーズでは,ステゴの分布を優先する。 実験により、UP4LSは既存の手法の性能を大幅に向上し、全体的な精度は25%近く向上した。 特に、改良は特に少ないステゴサンプルで発音される。 さらに、UP4LSは関連するタスクの研究のステージも設定し、LSタスクの広範な応用を奨励している。

Linguistic steganalysis (LS) tasks aim to effectively detect stegos generated by linguistic steganography. Existing LS methods overlook the distinctive user characteristics, leading to weak performance in social networks. The limited occurrence of stegos further complicates detection. In this paper, we propose the UP4LS, a novel framework with the User Profile for enhancing LS performance. Specifically, by delving into post content, we explore user attributes like writing habits, psychological states, and focal areas, thereby building the user profile for LS. For each attribute, we design the identified feature extraction module. The extracted features are mapped to high-dimensional user features via deep-learning networks from existing methods. Then the language model is employed to extract content features. The user and content features are integrated to optimize feature representation. During the training phase, we prioritize the distribution of stegos. Experiments demonstrate that UP4LS can significantly enhance the performance of existing methods, and an overall accuracy improvement of nearly 25%. In particular, the improvement is especially pronounced with fewer stego samples. Additionally, UP4LS also sets the stage for studies on related tasks, encouraging extensive applications on LS tasks.
翻訳日:2023-11-06 14:47:38 公開日:2023-11-03
# PDF:Point Diffusion Implicit Function for Large-scale Scene Neural Representation

PDF: Point Diffusion Implicit Function for Large-scale Scene Neural Representation ( http://arxiv.org/abs/2311.01773v1 )

ライセンス: Link先を確認
Yuhan Ding, Fukun Yin, Jiayuan Fan, Hui Li, Xin Chen, Wen Liu, Chongshan Lu, Gang YU, Tao Chen(参考訳) 暗黙的神経表現の最近の進歩は、サンプリング空間のサンプリング線に沿って個々の点をサンプリングし、融合することで、印象的な結果を得た。 しかし、爆発的に増加するサンプリング空間のため、詳細なテクスチャを微妙に表現し、合成することは、大規模な屋外シーンでは依然として困難である。 個々の点を用いて全体空間を知覚するジレンマを緩和するために,シーンの表面分布を学習して,構造的事前情報を提供し,サンプリング可能な空間を低減し,大規模シーンニューラル表現のためのポイント拡散暗黙関数(PDF)を提案する。 この手法の核心は,複数の訓練画像から再構成されたスパースポイントクラウドを,事前に明示した濃密なポイントクラウドに拡張する,大規模ポイントクラウド超解像拡散モジュールである。 そして、レンダリング段階では、サンプリング半径内で先行点を有するサンプリングポイントのみを保持する。 すなわち、サンプリング空間は、未有界空間からシーン表面へ縮小される。 一方、点雲では提供できないシーンの背景を埋めるために、Mip-NeRF 360に基づく領域サンプリングを用いて背景表現をモデル化する。 提案手法の有効性を実証した大規模なシーンノウハウの合成実験を行った。

Recent advances in implicit neural representations have achieved impressive results by sampling and fusing individual points along sampling rays in the sampling space. However, due to the explosively growing sampling space, finely representing and synthesizing detailed textures remains a challenge for unbounded large-scale outdoor scenes. To alleviate the dilemma of using individual points to perceive the entire colossal space, we explore learning the surface distribution of the scene to provide structural priors and reduce the samplable space and propose a Point Diffusion implicit Function, PDF, for large-scale scene neural representation. The core of our method is a large-scale point cloud super-resolution diffusion module that enhances the sparse point cloud reconstructed from several training images into a dense point cloud as an explicit prior. Then in the rendering stage, only sampling points with prior points within the sampling radius are retained. That is, the sampling space is reduced from the unbounded space to the scene surface. Meanwhile, to fill in the background of the scene that cannot be provided by point clouds, the region sampling based on Mip-NeRF 360 is employed to model the background representation. Expensive experiments have demonstrated the effectiveness of our method for large-scale scene novel view synthesis, which outperforms relevant state-of-the-art baselines.
翻訳日:2023-11-06 14:47:22 公開日:2023-11-03
# 汎用低ランクテンソル周波数帯域

Efficient Generalized Low-Rank Tensor Contextual Bandits ( http://arxiv.org/abs/2311.01771v1 )

ライセンス: Link先を確認
Qianxin Yi, Yiyang Yang, Yao Wang, Shaojie Tang(参考訳) 本稿では,多次元データのパワーと報奨関数の固有非線形性を十分に活用し,高可用性かつ説明可能な意思決定サービスを実現するbanditsアルゴリズムを構築することを目的とする。 この目的のために、3つの特徴ベクトルから作用が生成され、従ってテンソルで表現できる一般化された低ランクテンソル文脈帯域モデルを導入する。 この定式化において、報酬は、アクションの特徴テンソルの内積に適用される一般化線形関数と、低い管状ランクを持つ固定だが未知のパラメータテンソルによって決定される。 探索と搾取のトレードオフを効果的に達成するために,「一般化された低ランクテンソル探索部分空間を精製する」(g-lowtestr)という新しいアルゴリズムを導入する。 このアルゴリズムは、まず生データを収集し、決定シナリオに埋め込まれた本質的な低ランクテンソル部分空間情報を探索し、元の問題をほぼ低次元の一般化線形文脈帯域問題に変換する。 厳密な理論解析により、G-LowTESTRの後悔境界はベクトル化や行列化の場合よりも優れていることが示された。 我々は,g-lowtestrの有効性をさらに強調するために,一連のシミュレーションと実データ実験を実施し,低ランクテンソル構造を活用して強化学習を行う。

In this paper, we aim to build a novel bandits algorithm that is capable of fully harnessing the power of multi-dimensional data and the inherent non-linearity of reward functions to provide high-usable and accountable decision-making services. To this end, we introduce a generalized low-rank tensor contextual bandits model in which an action is formed from three feature vectors, and thus can be represented by a tensor. In this formulation, the reward is determined through a generalized linear function applied to the inner product of the action's feature tensor and a fixed but unknown parameter tensor with a low tubal rank. To effectively achieve the trade-off between exploration and exploitation, we introduce a novel algorithm called "Generalized Low-Rank Tensor Exploration Subspace then Refine" (G-LowTESTR). This algorithm first collects raw data to explore the intrinsic low-rank tensor subspace information embedded in the decision-making scenario, and then converts the original problem into an almost lower-dimensional generalized linear contextual bandits problem. Rigorous theoretical analysis shows that the regret bound of G-LowTESTR is superior to those in vectorization and matricization cases. We conduct a series of simulations and real data experiments to further highlight the effectiveness of G-LowTESTR, leveraging its ability to capitalize on the low-rank tensor structure for enhanced learning.
翻訳日:2023-11-06 14:46:59 公開日:2023-11-03
# 半教師付き2次元ポーズ推定のための最大偏差学生の不確かさのモデル化

Modeling the Uncertainty with Maximum Discrepant Students for Semi-supervised 2D Pose Estimation ( http://arxiv.org/abs/2311.01770v1 )

ライセンス: Link先を確認
Jiaqi Wu, Junbiao Pang, Qingming Huang(参考訳) 半教師付きポーズ推定は、コンピュータビジョンにとって事実上難しい課題である。 多くの優れた半教師付き分類法が出現しているが、これらの手法は通常、擬似ラベルの質を評価するために信頼を利用する。 例えば、ポーズ推定では、信頼度は、ヒートマップの位置がその予測の品質ではなく、キーポイントである可能性のみを表す。 本稿では,疑似ラベルの不確かさのモデル化の観点から,半教師ありポーズ推定タスクにおける擬似ラベルの品質を推定する簡易かつ効率的なフレームワークを提案する。 具体的には,双対平均教師枠組みの下で,2人の教師が同じサンプルに対して異なる決定境界を生成するように効果的に促すために,2つの最大偏差学生(mdss)を構築した。 さらに,疑似ラベルの品質を評価するための不確実性も複数作成する。 実験の結果, 3つのデータセットにおける半教師ありポーズ推定の性能が向上した。

Semi-supervised pose estimation is a practically challenging task for computer vision. Although numerous excellent semi-supervised classification methods have emerged, these methods typically use confidence to evaluate the quality of pseudo-labels, which is difficult to achieve in pose estimation tasks. For example, in pose estimation, confidence represents only the possibility that a position of the heatmap is a keypoint, not the quality of that prediction. In this paper, we propose a simple yet efficient framework to estimate the quality of pseudo-labels in semi-supervised pose estimation tasks from the perspective of modeling the uncertainty of the pseudo-labels. Concretely, under the dual mean-teacher framework, we construct the two maximum discrepant students (MDSs) to effectively push two teachers to generate different decision boundaries for the same sample. Moreover, we create multiple uncertainties to assess the quality of the pseudo-labels. Experimental results demonstrate that our method improves the performance of semi-supervised pose estimation on three datasets.
翻訳日:2023-11-06 14:46:34 公開日:2023-11-03
# PPTCベンチマーク:PowerPointタスク完了のための大規模言語モデルの評価

PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion ( http://arxiv.org/abs/2311.01767v1 )

ライセンス: Link先を確認
Yiduo Guo, Zekai Zhang, Yaobo Liang, Dongyan Zhao, Duan Nan(参考訳) 最近のLLM(Large Language Models)の評価は、基本的な自然言語タスクのためのゼロショット/フェーショット機能のテストと、ツールAPIへの変換機能を中心にしている。 しかし,複雑なマルチモーダル環境におけるマルチターン・マルチモーダル命令を仕上げるための複雑なツールを用いたLCMの評価は行われていない。 このギャップに対処するために,ユーザ命令に基づいてPPTファイルを作成・編集するLLMの能力を評価するために,PowerPoint Task Completion (PPTC)ベンチマークを導入する。 多様なトピックとマルチモーダル操作を含む数百の命令をカバーする279のマルチターンセッションが含まれている。 また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLLMが命令を終了するかどうかを評価するPPTX-Match評価システムを提案し,様々なLLM生成APIシーケンスをサポートする。 3つの閉LLMと6つのオープンソースLLMを測定する。 その結果,gpt-4 は他の llm を75.1\% の精度で上回っており,セッション全体の完成には困難が伴い,セッション精度はわずか 6\% となった。 ベンチマークでは、マルチターンセッションにおけるエラー蓄積、長いPTテンプレート処理、マルチモーダリティ知覚の3つの主なエラー原因が見つかった。 これらは将来のLLMとエージェントシステムにとって大きな課題となる。 本稿では,PPTCのデータ,コード,評価システムについて,<url{https://github.com/gydpku/PPTC}で公開する。

Recent evaluations of Large Language Models (LLMs) have centered around testing their zero-shot/few-shot capabilities for basic natural language tasks and their ability to translate instructions into tool APIs. However, the evaluation of LLMs utilizing complex tools to finish multi-turn, multi-modal instructions in a complex multi-modal environment has not been investigated. To address this gap, we introduce the PowerPoint Task Completion (PPTC) benchmark to assess LLMs' ability to create and edit PPT files based on user instructions. It contains 279 multi-turn sessions covering diverse topics and hundreds of instructions involving multi-modal operations. We also propose the PPTX-Match Evaluation System that evaluates if LLMs finish the instruction based on the prediction file rather than the label API sequence, thus it supports various LLM-generated API sequences. We measure 3 closed LLMs and 6 open-source LLMs. The results show that GPT-4 outperforms other LLMs with 75.1\% accuracy in single-turn dialogue testing but faces challenges in completing entire sessions, achieving just 6\% session accuracy. We find three main error causes in our benchmark: error accumulation in the multi-turn session, long PPT template processing, and multi-modality perception. These pose great challenges for future LLM and agent systems. We release the data, code, and evaluation system of PPTC at \url{https://github.com/gydpku/PPTC}.
翻訳日:2023-11-06 14:46:19 公開日:2023-11-03
# 支援・反感:文脈外ミスと偽情報を検出するための証拠のスタンスの分析

Support or Refute: Analyzing the Stance of Evidence to Detect Out-of-Context Mis- and Disinformation ( http://arxiv.org/abs/2311.01766v1 )

ライセンス: Link先を確認
Xin Yuan, Jie Guo, Weidong Qiu, Zheng Huang, Shujun Li(参考訳) オンライン上の誤報や誤報は、様々な種類のオンライン被害の主な源泉として社会問題となっている。 ooc(out-of-context)情報とは、例えば、偽のテキストキャプションや誤解を招くテキスト記述と組み合わされた実際の画像など、異なる情報の断片が誤って関連付けられる情報である。 過去の研究では、外部の証拠を通じてoocの誤報や偽情報に対する防御を試みたが、異なる立場で異なる証拠の役割を無視する傾向がある。 異なる検出結果に対するバイアスを証拠のスタンスが表しているという直観性に動機づけられ,様々なマルチモーダル証拠のスタンスを統一的な枠組みで抽出できるスタンス抽出ネットワーク(sen)を提案する。 さらに,名前付きエンティティの共起関係に基づいて算出したサポート・リフテーションスコアをテキストセンに導入し,提案手法が最先端のベースラインを上回り,最適なモデルが3.2%の精度で性能向上を達成することを実証した。

Mis- and disinformation online have become a major societal problem as major sources of online harms of different kinds. One common form of mis- and disinformation is out-of-context (OOC) information, where different pieces of information are falsely associated, e.g., a real image combined with a false textual caption or a misleading textual description. Although some past studies have attempted to defend against OOC mis- and disinformation through external evidence, they tend to disregard the role of different pieces of evidence with different stances. Motivated by the intuition that the stance of evidence represents a bias towards different detection results, we propose a stance extraction network (SEN) that can extract the stances of different pieces of multi-modal evidence in a unified framework. Moreover, we introduce a support-refutation score calculated based on the co-occurrence relations of named entities into the textual SEN. Extensive experiments on a public large-scale dataset demonstrated that our proposed method outperformed the state-of-the-art baselines, with the best model achieving a performance gain of 3.2% in accuracy.
翻訳日:2023-11-06 14:45:55 公開日:2023-11-03
# 非定常核に対する勾配降下による核リッジ回帰の解法

Solving Kernel Ridge Regression with Gradient Descent for a Non-Constant Kernel ( http://arxiv.org/abs/2311.01762v1 )

ライセンス: Link先を確認
Oskar Allerbo(参考訳) カーネルリッジ回帰 (kernel ridge regression, krr) は、データでは非線形であるがパラメータでは線形である線形リッジ回帰の一般化である。 この溶液は、行列逆転を含む閉形式溶液として、あるいは勾配降下によって反復的に得ることができる。 反復的アプローチを用いることで、トレーニング中にカーネルを変更することが可能になります。 理論的には、これがモデル複雑性と一般化に与える影響を論じる。 そこで本研究では,トランスレーショナル不変カーネルの帯域幅の更新方式を提案し,トレーニング中の帯域幅をゼロにすることで,ハイパーパラメータ選択の必要性を回避する。 実データおよび合成データにおいて,トレーニング中の帯域幅が,クロスバリデーションと限界確率最大化によって選択された一定帯域幅を用いていかに減少するかを実証する。 また、帯域幅を減少させることで、良い一般化と組み合わせてゼロトレーニング誤差を達成できることと、KRRが一定の帯域幅を持つがニューラルネットワークに現れることが知られている現象である二重降下挙動を両立できることを理論的かつ実証的に示す。

Kernel ridge regression, KRR, is a generalization of linear ridge regression that is non-linear in the data, but linear in the parameters. The solution can be obtained either as a closed-form solution, which includes a matrix inversion, or iteratively through gradient descent. Using the iterative approach opens up for changing the kernel during training, something that is investigated in this paper. We theoretically address the effects this has on model complexity and generalization. Based on our findings, we propose an update scheme for the bandwidth of translational-invariant kernels, where we let the bandwidth decrease to zero during training, thus circumventing the need for hyper-parameter selection. We demonstrate on real and synthetic data how decreasing the bandwidth during training outperforms using a constant bandwidth, selected by cross-validation and marginal likelihood maximization. We also show theoretically and empirically that using a decreasing bandwidth, we are able to achieve both zero training error in combination with good generalization, and a double descent behavior, phenomena that do not occur for KRR with constant bandwidth but are known to appear for neural networks.
翻訳日:2023-11-06 14:45:34 公開日:2023-11-03
# TinyFormer: 効率的なトランスフォーマー設計とTinyデバイスへのデプロイ

TinyFormer: Efficient Transformer Design and Deployment on Tiny Devices ( http://arxiv.org/abs/2311.01759v1 )

ライセンス: Link先を確認
Jianlei Yang, Jiacheng Liao, Fanding Lei, Meichen Liu, Junyi Chen, Lingkun Long, Han Wan, Bei Yu, Weisheng Zhao(参考訳) 小さなデバイス(マイクロコントローラユニット、MCUなど)でのディープラーニングモデルの開発は、様々な組み込みIoTアプリケーションで注目を集めている。 しかし、ハードウェアリソースの厳しい制約のため、最近の高度なモデル(例えばトランスフォーマー)を小さなデバイスで効率的に設計し、デプロイすることは困難である。 本稿では,資源効率の高いトランスフォーマーをMCU上に開発・展開するためのフレームワークであるTinyFormerを提案する。 TinyFormerは主にSuperNAS、SparseNAS、SparseEngineで構成されている。 SuperNASは、巨大な検索空間から適切なスーパーネットを検索することを目的としている。 SparseNASは、識別されたスーパーネットからのトランスフォーマーアーキテクチャを含む、最高のスパースシングルパスモデルを評価する。 最後に、SparseEngineは検索したスパースモデルをMCUに効率的にデプロイする。 私たちの知る限り,sparseengineは,mcu上のtransformerを使用したスパースモデルの推論が可能な,最初のデプロイメントフレームワークです。 CIFAR-10データセットの評価結果は、TinyFormerが1MBのストレージと320$KBのメモリのハードウェア制約に固執しながら、9,6.1$%の精度で効率的なトランスフォーマーを開発できることを示している。 さらに、TinyFormerは、CMSIS-NNライブラリと比較して、スパース推論の大幅な高速化を実現している。 TinyFormerは強力なトランスフォーマーをTinyMLのシナリオに持ち込み、ディープラーニングアプリケーションの範囲を大きく広げると考えられている。

Developing deep learning models on tiny devices (e.g. Microcontroller units, MCUs) has attracted much attention in various embedded IoT applications. However, it is challenging to efficiently design and deploy recent advanced models (e.g. transformers) on tiny devices due to their severe hardware resource constraints. In this work, we propose TinyFormer, a framework specifically designed to develop and deploy resource-efficient transformers on MCUs. TinyFormer mainly consists of SuperNAS, SparseNAS and SparseEngine. Separately, SuperNAS aims to search for an appropriate supernet from a vast search space. SparseNAS evaluates the best sparse single-path model including transformer architecture from the identified supernet. Finally, SparseEngine efficiently deploys the searched sparse models onto MCUs. To the best of our knowledge, SparseEngine is the first deployment framework capable of performing inference of sparse models with transformer on MCUs. Evaluation results on the CIFAR-10 dataset demonstrate that TinyFormer can develop efficient transformers with an accuracy of $96.1\%$ while adhering to hardware constraints of $1$MB storage and $320$KB memory. Additionally, TinyFormer achieves significant speedups in sparse inference, up to $12.2\times$, when compared to the CMSIS-NN library. TinyFormer is believed to bring powerful transformers into TinyML scenarios and greatly expand the scope of deep learning applications.
翻訳日:2023-11-06 14:45:14 公開日:2023-11-03
# Indo LEGO-ABSA: インドネシア語に対するマルチタスク生成アスペクトに基づく知覚分析

Indo LEGO-ABSA: A Multitask Generative Aspect Based Sentiment Analysis for Indonesian Language ( http://arxiv.org/abs/2311.01757v1 )

ライセンス: Link先を確認
Randy Zakya Suchrady and Ayu Purwarianti(参考訳) アスペクトベース感情分析(aspect-based sentiment analysis)は、エンティティの特定の側面に関連する感情を識別し理解することを目的とした自然言語処理の手法である。 アスペクトは、特定のエンティティのアスペクトまたは属性を表す単語またはフレーズである。 従来の研究では、生成事前学習言語モデルを用いてアスペクトベースの感情分析を行っている。 LEGO-ABSAは、アスペクトベースの感情分析、特に英語において、生成事前学習言語モデルをうまく採用するフレームワークである。 LEGO-ABSAはマルチタスク学習とモデルパフォーマンス向上のためのプロンプトアプローチを使用している。 しかし、このアプローチの適用はバハサ・インドネシアの文脈では行われていない。 そこで本研究は,生成的事前学習言語モデルを用いて,バハサインドネシアのアスペクトベース感情分析において,マルチタスク学習と促進アプローチを実装することを目的としている。 本研究では,創発的事前学習言語モデルを用いたアスペクトベース感情分析モデルであるindo lego-absaモデルを開発し,マルチタスク学習とプロンプトの訓練を行った。 Indo LEGO-ABSAはインドネシア語のホテルドメインデータセットでトレーニングされている。 結果は、アスペクトセンティメントトリプレット抽出タスクのf1スコア79.55%、統一アスペクトベースセンティメント分析の86.09%、アスペクトオピニオンペア抽出の79.85%、アスペクト用語抽出の87.45%、オピニオン用語抽出の88.09%を含む。 Indo LEGO-ABSAは、アスペクトベースの感情分析ですべてのタスクをトレーニングするためにマルチタスク学習を適用することで、T5モデル、特にmT5を採用するLEGO-ABSAフレームワークを採用する。

Aspect-based sentiment analysis is a method in natural language processing aimed at identifying and understanding sentiments related to specific aspects of an entity. Aspects are words or phrases that represent an aspect or attribute of a particular entity. Previous research has utilized generative pre-trained language models to perform aspect-based sentiment analysis. LEGO-ABSA is one framework that has successfully employed generative pre-trained language models in aspect-based sentiment analysis, particularly in English. LEGO-ABSA uses a multitask learning and prompting approach to enhance model performance. However, the application of this approach has not been done in the context of Bahasa Indonesia. Therefore, this research aims to implement the multitask learning and prompting approach in aspect-based sentiment analysis for Bahasa Indonesia using generative pre-trained language models. In this study, the Indo LEGO-ABSA model is developed, which is an aspect-based sentiment analysis model utilizing generative pre-trained language models and trained with multitask learning and prompting. Indo LEGO-ABSA is trained with a hotel domain dataset in the Indonesian language. The obtained results include an f1-score of 79.55% for the Aspect Sentiment Triplet Extraction task, 86.09% for Unified Aspect-based Sentiment Analysis, 79.85% for Aspect Opinion Pair Extraction, 87.45% for Aspect Term Extraction, and 88.09% for Opinion Term Extraction. Indo LEGO-ABSA adopts the LEGO-ABSA framework that employs the T5 model, specifically mT5, by applying multitask learning to train all tasks within aspect-based sentiment analysis.
翻訳日:2023-11-06 14:44:50 公開日:2023-11-03
# マルチタスク軌道異常検出のための全体表現学習

Holistic Representation Learning for Multitask Trajectory Anomaly Detection ( http://arxiv.org/abs/2311.01851v1 )

ライセンス: Link先を確認
Alexandros Stergiou and Brent De Weerdt and Nikos Deligiannis(参考訳) ビデオ異常検出は、ビデオ内の異常事象の認識を扱う。 視覚信号とは別に、ビデオ異常検出もスケルトンシーケンスの使用によって対処されている。 我々は,セグメント間の期待動きを異なる時間に学習するために,骨格軌跡の全体的表現を提案する。 提案手法はマルチタスク学習を用いて,過去のセグメントや将来のセグメントの補間と,中間セグメントの補間を可能にするトラジェクトルの連続的観測不能な時間セグメントを再構築する。 我々は、エンドツーエンドのアテンションベースのエンコーダデコーダを使用する。 我々は、時間的閉鎖された軌道を符号化し、ブロックされたセグメントの潜在表現を共同学習し、異なる時間的セグメントにわたる期待運動に基づいて軌道を再構築する。 トラジェクトリに基づく3つのビデオ異常検出データセットの大規模な実験は, 骨格軌道の異常検出に対する最先端の手法によるアプローチの利点と有効性を示している。

Video anomaly detection deals with the recognition of abnormal events in videos. Apart from the visual signal, video anomaly detection has also been addressed with the use of skeleton sequences. We propose a holistic representation of skeleton trajectories to learn expected motions across segments at different times. Our approach uses multitask learning to reconstruct any continuous unobserved temporal segment of the trajectory allowing the extrapolation of past or future segments and the interpolation of in-between segments. We use an end-to-end attention-based encoder-decoder. We encode temporally occluded trajectories, jointly learn latent representations of the occluded segments, and reconstruct trajectories based on expected motions across different temporal segments. Extensive experiments on three trajectory-based video anomaly detection datasets show the advantages and effectiveness of our approach with state-of-the-art results on anomaly detection in skeleton trajectories.
翻訳日:2023-11-06 14:38:23 公開日:2023-11-03
# Mix-ME:マルチエージェント学習のための品質多様性

Mix-ME: Quality-Diversity for Multi-Agent Learning ( http://arxiv.org/abs/2311.01829v1 )

ライセンス: Link先を確認
Gar{\dh}ar Ingvarsson, Mikayel Samvelyan, Bryan Lim, Manon Flageat, Antoine Cully, Tim Rockt\"aschel(参考訳) 適応ロボットのような現実世界のシステムでは、単一の最適化されたソリューションを達成することは不十分である。 代わりに、さまざまなコンテキストや要求に適応するために、多種多様なハイパフォーマンスなソリューションセットがしばしば必要となる。 これはQD(Quality-Diversity)の領域であり、それぞれ独自の特徴を持つハイパフォーマンスなソリューションの集合を見つけることを目的としている。 QD法は最近、ロボット工学を含む多くの領域で成功し、損傷適応型移動制御器の発見に使われている。 しかし、既存の作業の多くはマルチエージェントであるにもかかわらず、シングルエージェントの設定に重点を置いている。 そこで本研究では,異なるチームのエージェントを混在させて,クロスオーバーのような演算子を用いて新しい解を生成するMAP-Elitesアルゴリズムのマルチエージェント版であるMix-MEを紹介する。 提案手法は,観測可能な連続制御タスクの多種多様について評価する。 評価の結果,Mix-MEが取得したマルチエージェント変種は,単一エージェントベースラインと競合するだけでなく,部分観測可能条件下でのマルチエージェント設定でも優れていた。

In many real-world systems, such as adaptive robotics, achieving a single, optimised solution may be insufficient. Instead, a diverse set of high-performing solutions is often required to adapt to varying contexts and requirements. This is the realm of Quality-Diversity (QD), which aims to discover a collection of high-performing solutions, each with their own unique characteristics. QD methods have recently seen success in many domains, including robotics, where they have been used to discover damage-adaptive locomotion controllers. However, most existing work has focused on single-agent settings, despite many tasks of interest being multi-agent. To this end, we introduce Mix-ME, a novel multi-agent variant of the popular MAP-Elites algorithm that forms new solutions using a crossover-like operator by mixing together agents from different teams. We evaluate the proposed methods on a variety of partially observable continuous control tasks. Our evaluation shows that these multi-agent variants obtained by Mix-ME not only compete with single-agent baselines but also often outperform them in multi-agent settings under partial observability.
翻訳日:2023-11-06 14:38:04 公開日:2023-11-03
# 大規模言語モデルによる救助: chatgptを用いた科学的ワークフロー開発における複雑さの低減

Large Language Models to the Rescue: Reducing the Complexity in Scientific Workflow Development Using ChatGPT ( http://arxiv.org/abs/2311.01825v1 )

ライセンス: Link先を確認
Mario S\"anger, Ninon De Mecquenem, Katarzyna Ewa Lewi\'nska, Vasilis Bountris, Fabian Lehmann, Ulf Leser, Thomas Kosch(参考訳) 科学ワークフローシステムは、大規模な計算クラスタ上での自動並列化による分析の再現性、信頼性、スケーラビリティを提供するため、大規模なデータセット上で複雑なデータ分析パイプラインを表現および実行するためにますます人気がある。 しかし、多くのブラックボックスツールと実行に必要な深いインフラストラクチャスタックが関与しているため、ワークフローの実装は難しい。 同時に、ユーザサポートツールはまれであり、利用可能なサンプルの数は、古典的なプログラミング言語よりもはるかに少ない。 これらの課題に対処するために,我々は,大規模言語モデル(llm,特にchatgpt)の効率を,科学的なワークフローを扱うユーザを支援するために調査する。 2つの科学領域で3つのユーザスタディを行い、ワークフローの理解、適応、拡張のためのChatGPTを評価した。 その結果,LLMは効率よくワークフローを解釈するが,コンポーネントの交換やワークフロー拡張のための性能は低下することがわかった。 これらのシナリオにおいて,これらの制限を特徴付け,今後の研究方向性を提案する。

Scientific workflow systems are increasingly popular for expressing and executing complex data analysis pipelines over large datasets, as they offer reproducibility, dependability, and scalability of analyses by automatic parallelization on large compute clusters. However, implementing workflows is difficult due to the involvement of many black-box tools and the deep infrastructure stack necessary for their execution. Simultaneously, user-supporting tools are rare, and the number of available examples is much lower than in classical programming languages. To address these challenges, we investigate the efficiency of Large Language Models (LLMs), specifically ChatGPT, to support users when dealing with scientific workflows. We performed three user studies in two scientific domains to evaluate ChatGPT for comprehending, adapting, and extending workflows. Our results indicate that LLMs efficiently interpret workflows but achieve lower performance for exchanging components or purposeful workflow extensions. We characterize their limitations in these challenging scenarios and suggest future research directions.
翻訳日:2023-11-06 14:37:30 公開日:2023-11-03
# 都市自律運転のためのマルチLiDAR位置決めとマッピングパイプライン

Multi-LiDAR Localization and Mapping Pipeline for Urban Autonomous Driving ( http://arxiv.org/abs/2311.01823v1 )

ライセンス: Link先を確認
Florian Sauerbeck, Dominik Kulmer, Markus Pielmeier, Maximilian Leitenstern, Christoph Wei{\ss}, Johannes Betz(参考訳) 自動運転車は、都市環境で安全かつ確実にナビゲートするために、正確で堅牢なローカライゼーションとマッピングアルゴリズムを必要とする。 オフラインマッピングとLiDARセンサに基づくオンラインローカライゼーションのための新しいセンサフュージョンベースパイプラインを提案する。 提案手法は4つのLiDARセンサを利用する。 マッピングとローカライズアルゴリズムはKISS-ICPに基づいており、リアルタイムのパフォーマンスと高精度を実現する。 経路計画などのタスクを駆動する意味マップを生成する手法を提案する。 提示されたパイプラインは、ROS 2ベースのAutowareソフトウェアスタックに統合され、自律運転アプリケーションのための堅牢で柔軟な環境を提供する。 私たちのパイプラインは、所定の研究車両と現実世界の自動運転アプリケーションに対して最先端のアプローチよりも優れています。

Autonomous vehicles require accurate and robust localization and mapping algorithms to navigate safely and reliably in urban environments. We present a novel sensor fusion-based pipeline for offline mapping and online localization based on LiDAR sensors. The proposed approach leverages four LiDAR sensors. Mapping and localization algorithms are based on the KISS-ICP, enabling real-time performance and high accuracy. We introduce an approach to generate semantic maps for driving tasks such as path planning. The presented pipeline is integrated into the ROS 2 based Autoware software stack, providing a robust and flexible environment for autonomous driving applications. We show that our pipeline outperforms state-of-the-art approaches for a given research vehicle and real-world autonomous driving application.
翻訳日:2023-11-06 14:36:59 公開日:2023-11-03
# ミニマリスト文法:過剰発生のない構築

Minimalist Grammar: Construction without Overgeneration ( http://arxiv.org/abs/2311.01820v1 )

ライセンス: Link先を確認
Isidor Konrad Maier, Johannes Kuhn, Jesse Beisegel, Markus Huber-Liebl, Matthias Wolff(参考訳) 本稿では,ミニマリスト文法(MG)の書き方について解説する。 命令をアルゴリズムとして示すために、文脈自由文法(CFG)の変種を入力形式として使用する。 CFGが再帰を持たない場合、すなわち、(間接的に)自身を含む右辺に導かれる非終端缶が存在しない場合、過剰発生を排除できる。 構築されたMGは例外処理の特別な方法としてライセンス/問い合わせを利用する。 a CFG format for a derivation $A\_eats\_B\mapsto^* Peter\_eats\_apples$ ここでは$A$と$B$が名詞句を生成する。 g である。 は$i\_eats\_apples$。 過剰発生を避けるために、cfgは例外を扱うためだけに、主に同じ単語を生成する多くの非終端記号と規則を必要とする。 しかし、mgsでは、同じ単語を1項目で生成し、ライセンス/-orの適切な分布によって例外を処理するcfgルールをまとめることができる。 このテクニックの難しさは、ほとんどの世代でライセンス/orの大多数は必要ないが、何とかして起動する必要があることである。 この問題を \emph{adapters} と呼ばれる $\epsilon$-items で解く。

In this paper we give instructions on how to write a minimalist grammar (MG). In order to present the instructions as an algorithm, we use a variant of context free grammars (CFG) as an input format. We can exclude overgeneration, if the CFG has no recursion, i.e. no non-terminal can (indirectly) derive to a right-hand side containing itself. The constructed MGs utilize licensors/-ees as a special way of exception handling. A CFG format for a derivation $A\_eats\_B\mapsto^* peter\_eats\_apples$, where $A$ and $B$ generate noun phrases, normally leads to overgeneration, e.\,g., $i\_eats\_apples$. In order to avoid overgeneration, a CFG would need many non-terminal symbols and rules, that mainly produce the same word, just to handle exceptions. In our MGs however, we can summarize CFG rules that produce the same word in one item and handle exceptions by a proper distribution of licensees/-ors. The difficulty with this technique is that in most generations the majority of licensees/-ors is not needed, but still has to be triggered somehow. We solve this problem with $\epsilon$-items called \emph{adapters}.
翻訳日:2023-11-06 14:36:37 公開日:2023-11-03
# 極性最小化損失を伴うフラーミングバイアスの緩和

Mitigating Framing Bias with Polarity Minimization Loss ( http://arxiv.org/abs/2311.01817v1 )

ライセンス: Link先を確認
Yejin Bang, Nayeon Lee, Pascale Fung(参考訳) フレーミングバイアスは、実際の出来事の知覚を歪めることによって政治的分極を悪化させる重要な役割を担っている。 政治的スタンスが異なるメディアは、同じ出来事を報告する際にしばしば偏極言語を使用する。 本研究では,フラーミングバイアスを低減するために,偏波入力記事間の極性差を最小化する新たな損失関数を提案する。 具体的には,両極性を双方向にマップするモデルを共同で最適化する。 実験の結果,提案する極性最小化損失は,bartベースのマルチドキュメント要約モデルと比較して,フレーミングバイアスが大幅に減少することが示された。 特に,本手法の有効性は,情報フレーミングバイアスに伴う極性損失(すなわち,報告する情報の選び分け)を最小限に抑えるために,モデルが訓練された場合に最も顕著である。

Framing bias plays a significant role in exacerbating political polarization by distorting the perception of actual events. Media outlets with divergent political stances often use polarized language in their reporting of the same event. We propose a new loss function that encourages the model to minimize the polarity difference between the polarized input articles to reduce framing bias. Specifically, our loss is designed to jointly optimize the model to map polarity ends bidirectionally. Our experimental results demonstrate that incorporating the proposed polarity minimization loss leads to a substantial reduction in framing bias when compared to a BART-based multi-document summarization model. Notably, we find that the effectiveness of this approach is most pronounced when the model is trained to minimize the polarity loss associated with informational framing bias (i.e., skewed selection of information to report).
翻訳日:2023-11-06 14:35:55 公開日:2023-11-03
# 3次元不確かさ場の推定:神経放射場に対する不確かさの定量化

Estimating 3D Uncertainty Field: Quantifying Uncertainty for Neural Radiance Fields ( http://arxiv.org/abs/2311.01815v1 )

ライセンス: Link先を確認
Jianxiong Shen and Ruijie Ren and Adria Ruiz and Francesc Moreno-Noguer(参考訳) ニューラル・ラジアンス・フィールド(NeRF)に基づく現在の手法では、特に隠蔽されたシーンや外部シーンの内容を含む見えない領域において、予測の不確かさを定量化する能力が著しく欠如している。 この制限は、モデル予測の信頼性を未知の環境でのロボット探索や計画といったタスクに考慮しなければならないロボット工学の広範な応用を妨げる。 そこで本研究では,これらの不完全領域を明示的に識別する学習不完全シーン幾何に基づく3次元不確かさ場を推定する新しい手法を提案する。 各カメラ線に沿って蓄積された透過率を考慮すると、不確実性フィールドは2次元不確かさを推定し、シーン内容の内外に直接投射する光に対して高い値を示す。 学習面上の不確実性を定量化するために,確率的放射場をモデル化する。 近年の手法と比較して、3D未確認領域と2Dレンダリングピクセルの両方で高い不確実性について明確に推論できるのは,本手法のみであることを示す。 さらに,我々が設計した不確実性分野は,次の視点選択のような実世界のロボット作業に理想的に適していることを示す。

Current methods based on Neural Radiance Fields (NeRF) significantly lack the capacity to quantify uncertainty in their predictions, particularly on the unseen space including the occluded and outside scene content. This limitation hinders their extensive applications in robotics, where the reliability of model predictions has to be considered for tasks such as robotic exploration and planning in unknown environments. To address this, we propose a novel approach to estimate a 3D Uncertainty Field based on the learned incomplete scene geometry, which explicitly identifies these unseen regions. By considering the accumulated transmittance along each camera ray, our Uncertainty Field infers 2D pixel-wise uncertainty, exhibiting high values for rays directly casting towards occluded or outside the scene content. To quantify the uncertainty on the learned surface, we model a stochastic radiance field. Our experiments demonstrate that our approach is the only one that can explicitly reason about high uncertainty both on 3D unseen regions and its involved 2D rendered pixels, compared with recent methods. Furthermore, we illustrate that our designed uncertainty field is ideally suited for real-world robotics tasks, such as next-best-view selection.
翻訳日:2023-11-06 14:35:38 公開日:2023-11-03
# FETV:オープンドメインテキスト・ビデオ・ジェネレーションの微粒化評価ベンチマーク

FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation ( http://arxiv.org/abs/2311.01813v1 )

ライセンス: Link先を確認
Yuanxin Liu, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo Chen, Xu Sun, Lu Hou(参考訳) 近年,open-domain text-to-video (t2v) 世代モデルが目覚ましい進歩を遂げている。 しかし, 有望な結果は生成したビデオの定性的なケースで主に示され, T2Vモデルの定量的評価は2つの重大な問題に直面している。 まず、既存の研究はテキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価を欠いている。 一部のベンチマークはプロンプトを分類しているが、その分類は単一のアスペクトのみに焦点を当てるか、ビデオ生成における時間的情報を考慮しないかのどちらかである。 第二に、自動評価指標が人間の基準と一致しているかは不明である。 これらの問題に対処するために,テキスト・ビデオ生成のきめ細かい評価のためのベンチマークであるFETVを提案する。 FETVはマルチアスペクトであり、主要なコンテンツ、制御する属性、迅速な複雑さの3つの直交的な側面に基づいてプロンプトを分類する。 FETVはまた、ビデオ生成に適したいくつかの時間カテゴリーを導入している。 FETVに基づいて、4つの代表的T2Vモデルの総合的手動評価を行い、異なる側面から異なるカテゴリのプロンプトの長所と短所を明らかにする。 また,テストベッドとしてFETVを拡張し,自動T2V測定の信頼性を評価する。 FETVのマルチアスペクト分類は、異なるシナリオにおけるメトリクスの信頼性のきめ細かい分析を可能にする。 既存の自動メトリクス(例えば、CLIPScoreとFVD)は、人間の評価と相関が低い。 この問題に対処するために、CLIPScoreとFVDを改善するためのいくつかのソリューションを検討し、既存のメトリクスよりも人間との大きな相関を示す2つの自動メトリクスを開発した。 ベンチマークページ: https://github.com/llyx97/FETV。

Recently, open-domain text-to-video (T2V) generation models have made remarkable progress. However, the promising results are mainly shown by the qualitative cases of generated videos, while the quantitative evaluation of T2V models still faces two critical problems. Firstly, existing studies lack fine-grained evaluation of T2V models on different categories of text prompts. Although some benchmarks have categorized the prompts, their categorization either only focuses on a single aspect or fails to consider the temporal information in video generation. Secondly, it is unclear whether the automatic evaluation metrics are consistent with human standards. To address these problems, we propose FETV, a benchmark for Fine-grained Evaluation of Text-to-Video generation. FETV is multi-aspect, categorizing the prompts based on three orthogonal aspects: the major content, the attributes to control and the prompt complexity. FETV is also temporal-aware, which introduces several temporal categories tailored for video generation. Based on FETV, we conduct comprehensive manual evaluations of four representative T2V models, revealing their pros and cons on different categories of prompts from different aspects. We also extend FETV as a testbed to evaluate the reliability of automatic T2V metrics. The multi-aspect categorization of FETV enables fine-grained analysis of the metrics' reliability in different scenarios. We find that existing automatic metrics (e.g., CLIPScore and FVD) correlate poorly with human evaluation. To address this problem, we explore several solutions to improve CLIPScore and FVD, and develop two automatic metrics that exhibit significant higher correlation with humans than existing metrics. Benchmark page: https://github.com/llyx97/FETV.
翻訳日:2023-11-06 14:35:11 公開日:2023-11-03
# diffdub: 拡散オートエンコーダを用いたインペインティングレンダラを用いたパーソナライズドボッキング

DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder ( http://arxiv.org/abs/2311.01811v1 )

ライセンス: Link先を確認
Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen, Kai Yu(参考訳) 高品質でパーソナライズされたビジュアルドビングの生成は依然として課題である。 近年のイノベーションでは、2段階のパラダイムが出現し、中間表現を導管として促進するレンダリングとリップ同期プロセスが分離された。 それでも、従来の方法論は荒いランドマークに依存しているか、単一の話者に限定されているため、パフォーマンスが制限されている。 本稿ではDiffDub: Diffusion-based dubbingを提案する。 まず,マスクを組み込んだ塗装レンダラを用いて拡散オートエンコーダを作成し,編集可能領域と未変更領域を画定する。 これにより、残りの部分を保持しながら下面領域をシームレスに充填することができる。 実験を通して、いくつかの課題に遭遇した。 主にセマンティックエンコーダは堅牢性に欠けており、高レベルの機能をキャプチャする能力を制限している。 さらに、モデリングは顔の位置を無視し、口や鼻がフレームに散らばった。 これらの問題に対処するために,我々はデータ拡張や補足眼指導など多彩な戦略を採用している。 さらに,クロスアテンション機構によって強化されたコンフォーメータベースの参照エンコーダとモーションジェネレータをカプセル化した。 これにより、異なる参照で個人固有のテクスチャを学習し、ペア化された音声視覚データへの依存を減らすことができる。 我々の厳密な実験は、我々の画期的なアプローチが既存の手法をかなり上回り、シームレスで分かりやすい動画を個人や多言語のシナリオで提供することを包括的に強調しています。

Generating high-quality and person-generic visual dubbing remains a challenge. Recent innovation has seen the advent of a two-stage paradigm, decoupling the rendering and lip synchronization process facilitated by intermediate representation as a conduit. Still, previous methodologies rely on rough landmarks or are confined to a single speaker, thus limiting their performance. In this paper, we propose DiffDub: Diffusion-based dubbing. We first craft the Diffusion auto-encoder by an inpainting renderer incorporating a mask to delineate editable zones and unaltered regions. This allows for seamless filling of the lower-face region while preserving the remaining parts. Throughout our experiments, we encountered several challenges. Primarily, the semantic encoder lacks robustness, constricting its ability to capture high-level features. Besides, the modeling ignored facial positioning, causing mouth or nose jitters across frames. To tackle these issues, we employ versatile strategies, including data augmentation and supplementary eye guidance. Moreover, we encapsulated a conformer-based reference encoder and motion generator fortified by a cross-attention mechanism. This enables our model to learn person-specific textures with varying references and reduces reliance on paired audio-visual data. Our rigorous experiments comprehensively highlight that our ground-breaking approach outpaces existing methods with considerable margins and delivers seamless, intelligible videos in person-generic and multilingual scenarios.
翻訳日:2023-11-06 14:34:44 公開日:2023-11-03
# シャープ保証付き凸および非凸正規化最小方形に対するスケッチング

Sketching for Convex and Nonconvex Regularized Least Squares with Sharp Guarantees ( http://arxiv.org/abs/2311.01806v1 )

ライセンス: Link先を確認
Yingzhen Yang, Ping Li(参考訳) ランダム化アルゴリズムは大規模な最適化問題の解決に重要である。 本稿では、凸正規化関数や非凸正規化関数によって正規化される最小二乗問題に対する高速スケッチアルゴリズム、Sketching for Regularized Optimization (SRO)を提案する。 我々のSROアルゴリズムは最初に元のデータ行列のスケッチを生成し、それからスケッチされた問題を解く。 既存のランダム化アルゴリズムと異なり、我々のアルゴリズムは統一されたフレームワークで一般的なFrechet subdifferentiable regularization関数を処理する。 本稿では,元の問題の最適化結果と,凸あるいは凸のない正則化最小二乗問題のスケッチ問題との近似誤差に関する一般的な理論的結果を示す。 任意の凸正規化器の場合、近似誤差に対して相対誤差境界が証明される。 さらに, 弱条件下での一般理論結果を用いて, スケッチされたスパース凸あるいは非凸学習問題を解くことにより, スパース信号推定のためのミニマックス率を求める。 私たちの知識を最大限に活用するために、我々の結果は、統一理論の枠組みでスケッチすることで凸または非凸スパース学習問題のミニマックス率を最初に示すものの一つです。 さらに,スケッチアルゴリズムを反復的に呼び出すことで近似誤差を指数関数的に低減する反復スケッチアルゴリズムを提案する。 実験により提案したSROアルゴリズムと反復SROアルゴリズムの有効性が示された。

Randomized algorithms are important for solving large-scale optimization problems. In this paper, we propose a fast sketching algorithm for least square problems regularized by convex or nonconvex regularization functions, Sketching for Regularized Optimization (SRO). Our SRO algorithm first generates a sketch of the original data matrix, then solves the sketched problem. Different from existing randomized algorithms, our algorithm handles general Frechet subdifferentiable regularization functions in an unified framework. We present general theoretical result for the approximation error between the optimization results of the original problem and the sketched problem for regularized least square problems which can be convex or nonconvex. For arbitrary convex regularizer, relative-error bound is proved for the approximation error. Importantly, minimax rates for sparse signal estimation by solving the sketched sparse convex or nonconvex learning problems are also obtained using our general theoretical result under mild conditions. To the best of our knowledge, our results are among the first to demonstrate minimax rates for convex or nonconvex sparse learning problem by sketching under a unified theoretical framework. We further propose an iterative sketching algorithm which reduces the approximation error exponentially by iteratively invoking the sketching algorithm. Experimental results demonstrate the effectiveness of the proposed SRO and Iterative SRO algorithms.
翻訳日:2023-11-06 14:34:20 公開日:2023-11-03
# inkn'hue: アライメント多重エンコーダVAEによる複数プリミティブからのマンガカラー化の強化

inkn'hue: Enhancing Manga Colorization from Multiple Priors with Alignment Multi-Encoder VAE ( http://arxiv.org/abs/2311.01804v1 )

ライセンス: Link先を確認
Tawin Jiramahapokee(参考訳) マンガは日本の漫画の一形態であり、視覚的なストーリーテリングは世界中で読者を魅了している。 伝統的に白黒で表現されるマンガの魅力は、複雑なラインアートやシェーディングを通じて複雑な物語や感情を伝える能力にある。 しかし、鮮やかな色でマンガを体験したいという願望は、アーティストにとって最重要課題であるマンガの彩色を追求するきっかけとなった。 しかし、元々ラインアートやスケッチ用に設計された既存の手法は、マンガに適用する際の課題に直面している。 これらの方法はしばしば望ましい結果を達成するのに不足しており、特殊なマンガ固有の解が必要となる。 既存のアプローチは、単一のトレーニングステップや大規模な手作業によるアーティスト介入に依存することが多い。 これらの課題に対処するために,我々はマンガの彩色のための特殊な枠組みを提案する。 シェーディングと鮮やかな色付けの確立したモデルを活用することで、マルチエンコーダVAEを用いて両者を整合させる。 この構造化ワークフローは、参照イメージと手動ヒントを組み込むオプションによって、明確でカラフルな結果を保証する。

Manga, a form of Japanese comics and distinct visual storytelling, has captivated readers worldwide. Traditionally presented in black and white, manga's appeal lies in its ability to convey complex narratives and emotions through intricate line art and shading. Yet, the desire to experience manga in vibrant colors has sparked the pursuit of manga colorization, a task of paramount significance for artists. However, existing methods, originally designed for line art and sketches, face challenges when applied to manga. These methods often fall short in achieving the desired results, leading to the need for specialized manga-specific solutions. Existing approaches frequently rely on a single training step or extensive manual artist intervention, which can yield less satisfactory outcomes. To address these challenges, we propose a specialized framework for manga colorization. Leveraging established models for shading and vibrant coloring, our approach aligns both using a multi-encoder VAE. This structured workflow ensures clear and colorful results, with the option to incorporate reference images and manual hints.
翻訳日:2023-11-06 14:33:57 公開日:2023-11-03
# 拡散モデルの一般化特性について

On the Generalization Properties of Diffusion Models ( http://arxiv.org/abs/2311.01797v1 )

ライセンス: Link先を確認
Puheng Li, Zhong Li, Huishuai Zhang, Jiang Bian(参考訳) 拡散モデル(英: diffusion model)は、経験的に観測されるが未知な対象分布と既知の事前の間の確率的輸送写像を確立するのに役立つ生成モデルの一種である。 実世界の応用において顕著な成功を収めたにもかかわらず、その一般化能力に関する理論的理解は未開発である。 本研究は拡散モデルの一般化特性の包括的理論的探究に着手する。 スコアベース拡散モデルのトレーニングダイナミクスと相まって進化する一般化ギャップの理論的な推定を定め、サンプルサイズ$n$ とモデル容量 $m$ の両方において多項式的に小さい一般化誤差 (o(n^{-2/5}+m^{-4/5}) を示唆し、早期停止時の次元の呪い(すなわち、データ次元の指数的に大きいものではない)を回避した。 さらに,定量的解析をデータ依存シナリオに拡張し,対象の分布をモード間の距離を徐々に増加させる密度の連続として表現する。 これは、モデル一般化に対する「モードシフト」の地平における悪影響を正確に解明する。 さらに、これらの推定は理論的な構成だけでなく、数値シミュレーションによっても確認されている。 本研究は拡散モデルの一般化特性の厳密な理解に寄与し,実用的応用の指針となる洞察を提供する。

Diffusion models are a class of generative models that serve to establish a stochastic transport map between an empirically observed, yet unknown, target distribution and a known prior. Despite their remarkable success in real-world applications, a theoretical understanding of their generalization capabilities remains underdeveloped. This work embarks on a comprehensive theoretical exploration of the generalization attributes of diffusion models. We establish theoretical estimates of the generalization gap that evolves in tandem with the training dynamics of score-based diffusion models, suggesting a polynomially small generalization error ($O(n^{-2/5}+m^{-4/5})$) on both the sample size $n$ and the model capacity $m$, evading the curse of dimensionality (i.e., not exponentially large in the data dimension) when early-stopped. Furthermore, we extend our quantitative analysis to a data-dependent scenario, wherein target distributions are portrayed as a succession of densities with progressively increasing distances between modes. This precisely elucidates the adverse effect of "modes shift" in ground truths on the model generalization. Moreover, these estimates are not solely theoretical constructs but have also been confirmed through numerical simulations. Our findings contribute to the rigorous understanding of diffusion models' generalization properties and provide insights that may guide practical applications.
翻訳日:2023-11-06 14:33:38 公開日:2023-11-03
# アウト・オブ・ディストリビューション検出のための分布拡大学習

Learning to Augment Distributions for Out-of-Distribution Detection ( http://arxiv.org/abs/2311.01796v1 )

ライセンス: Link先を確認
Qizhou Wang, Zhen Fang, Yonggang Zhang, Feng Liu, Yixuan Li, Bo Han(参考訳) オープンワールド分類システムでは,OOD検出の最近の研究を動機として,ラベルが非流通(ID)症例と区別されるOOD(out-of-distriion)データを識別すべきである。 有望な進歩にもかかわらず、未発見のoodデータに関する知識が不足しているため、オープンな世界ではまだ失敗する可能性がある。 モデルトレーニングのために補助oodデータ(見えないデータとは別物)にアクセスすることは可能だが、そのような補助データがオープン世界でどのように機能するかを分析することは難しい。 この目的のために,学習理論の観点から,補助データと実データとの分布の不一致がオープンワールド検出性能に影響を与える鍵となることを明らかにする。 そこで我々は, 補助OOD分布を中心としたワッサースタイン球の分布を含むOOD分布セットを作成することにより, OOD分布の相違を緩和する分散拡張OOD学習(DAL)を提案する。 我々は,ボール内の最悪のOODデータに対してトレーニングした予測器がOOD分布のずれを小さくし,補助OODデータのみを付加したオープンワールド検出性能を向上させることを正当化する。 代表的なOOD検出装置にまたがって広範囲な評価を行い、先進的なOOD検出装置よりもDALの方が優れていることを示す。

Open-world classification systems should discern out-of-distribution (OOD) data whose labels deviate from those of in-distribution (ID) cases, motivating recent studies in OOD detection. Advanced works, despite their promising progress, may still fail in the open world, owing to the lack of knowledge about unseen OOD data in advance. Although one can access auxiliary OOD data (distinct from unseen ones) for model training, it remains to analyze how such auxiliary data will work in the open world. To this end, we delve into such a problem from a learning theory perspective, finding that the distribution discrepancy between the auxiliary and the unseen real OOD data is the key to affecting the open-world detection performance. Accordingly, we propose Distributional-Augmented OOD Learning (DAL), alleviating the OOD distribution discrepancy by crafting an OOD distribution set that contains all distributions in a Wasserstein ball centered on the auxiliary OOD distribution. We justify that the predictor trained over the worst OOD data in the ball can shrink the OOD distribution discrepancy, thus improving the open-world detection performance given only the auxiliary OOD data. We conduct extensive evaluations across representative OOD detection setups, demonstrating the superiority of our DAL over its advanced counterparts.
翻訳日:2023-11-06 14:33:14 公開日:2023-11-03
# 拘束熱化による増幅・緩和・エネルギー貯蔵

Amplification, Mitigation and Energy Storage via Constrained Thermalization ( http://arxiv.org/abs/2311.01795v1 )

ライセンス: Link先を確認
Harshank Shrotriya, Midhun Krishna, Leong-Chuan Kwek, Varun Narasimhachar and Sai Vinjanampathy(参考訳) 増幅(みんびょう、英: amplification, mitigation)とは、初期熱状態が異なる温度に加熱されたときの熱力学量の変化の増大(減退)であり、置換不変の浴でのみ研究されている。 本稿では,開放量子系の一般化された強対称性に対応するために増幅と緩和を一般化し,その現象をランダウアーの消去に結びつける。 我々は、kms保存遷移のパッシビリティを克服する新しい浴槽充電プロトコルを用いて、一般的な理論を例示する。

Amplification (mitigation) is the increase (decrease) in the change of thermodynamic quantities when an initial thermal state is thermalized to a different temperature in the presence of constraints, studied thus far only for permutationally invariant baths. In this manuscript, we generalize amplification and mitigation to accommodate generic strong symmetries of open quantum systems and connect the phenomenon to Landauer's erasure. We exemplify our general theory with a new bath-induced battery charging protocol that overcomes the passivity of KMS-preserving transitions.
翻訳日:2023-11-06 14:32:50 公開日:2023-11-03
# 境界編集距離とLempel-Ziv因子分解のための近似量子アルゴリズム

Near-Optimal Quantum Algorithms for Bounded Edit Distance and Lempel-Ziv Factorization ( http://arxiv.org/abs/2311.01793v1 )

ライセンス: Link先を確認
Daniel Gibney, Ce Jin, Tomasz Kociumaka, Sharma V. Thankachan(参考訳) 古典的には、2つの長さ=n$文字列の編集距離は$o(n^2)$時間で計算できるが、$o(n^{2-\epsilon})$-time 手順は直交ベクトル仮説を偽る。 もし編集距離が$k$を超えない場合、実行時間は$n$と$k$の関数としてほぼ最適(ovhで条件付)である$o(n+k^2)$に改善できる。 私たちの最初の貢献は、$\tilde{O}(\sqrt{nk}+k^2)$-timeアルゴリズムで、$\tilde{O}(\sqrt{nk})$クエリを使用します。 このクエリの複雑さは無条件で最適であり、編集距離が$O(n^{2-\epsilon})$-time量子アルゴリズムを許容するかどうかという長年にわたるオープンな疑問を、時間的複雑さで解決する。 我々の分母量子アルゴリズムは、編集距離問題を、文字列が小さなLempel-Ziv分解を持つケースに還元する。 そして、量子LZ圧縮アルゴリズムと圧縮文字列に対する古典的な編集距離サブルーチンを組み合わせる。 lz因子分解問題は古典的に o(n)$ 時間で解くことができ、量子設定では無条件に最適である。 しかし、因子化サイズ$z$という観点で複雑さをパラメータ化すれば、量子速度アップを期待できる。 一般的なオラクル識別アルゴリズムはすでに、指数的実行時間の価格で$\tilde{O}(\sqrt{nz})$の最適なクエリ複雑性が得られる。 2つ目の貢献は、$\tilde{O}(\sqrt{nz})$の最適時間複雑性を達成する量子アルゴリズムである。 鍵となるツールは、新しい lz-like factorization of size $o(z\log^2n)$ であり、それに続く因子は古典的手法と量子的手法の組み合わせによって効率的に計算できる。 次に、文字列の実行長エンコードされたBurrows-Wheeler変換(BWT)を取得し、$r$-indexを構築し、時間$\tilde{O}(\sqrt{nz})$で多くの基本的な文字列処理問題を解く。

Classically, the edit distance of two length-$n$ strings can be computed in $O(n^2)$ time, whereas an $O(n^{2-\epsilon})$-time procedure would falsify the Orthogonal Vectors Hypothesis. If the edit distance does not exceed $k$, the running time can be improved to $O(n+k^2)$, which is near-optimal (conditioned on OVH) as a function of $n$ and $k$. Our first main contribution is a quantum $\tilde{O}(\sqrt{nk}+k^2)$-time algorithm that uses $\tilde{O}(\sqrt{nk})$ queries, where $\tilde{O}(\cdot)$ hides polylogarithmic factors. This query complexity is unconditionally optimal, and any significant improvement in the time complexity would resolve a long-standing open question of whether edit distance admits an $O(n^{2-\epsilon})$-time quantum algorithm. Our divide-and-conquer quantum algorithm reduces the edit distance problem to a case where the strings have small Lempel-Ziv factorizations. Then, it combines a quantum LZ compression algorithm with a classical edit-distance subroutine for compressed strings. The LZ factorization problem can be classically solved in $O(n)$ time, which is unconditionally optimal in the quantum setting. We can, however, hope for a quantum speedup if we parameterize the complexity in terms of the factorization size $z$. Already a generic oracle identification algorithm yields the optimal query complexity of $\tilde{O}(\sqrt{nz})$ at the price of exponential running time. Our second main contribution is a quantum algorithm that achieves the optimal time complexity of $\tilde{O}(\sqrt{nz})$. The key tool is a novel LZ-like factorization of size $O(z\log^2n)$ whose subsequent factors can be efficiently computed through a combination of classical and quantum techniques. We can then obtain the string's run-length encoded Burrows-Wheeler Transform (BWT), construct the $r$-index, and solve many fundamental string processing problems in time $\tilde{O}(\sqrt{nz})$.
翻訳日:2023-11-06 14:32:40 公開日:2023-11-03
# 逐次ニューラルネットワークによる機能的データ解析の強化 : アドバンテージと比較研究

Enhancing Functional Data Analysis with Sequential Neural Networks: Advantages and Comparative Study ( http://arxiv.org/abs/2311.01875v1 )

ライセンス: Link先を確認
J. Zhao, J. Li, M. Chen and S. Jadhav(参考訳) 関数データ分析 (FDA) は、高次元と複雑なデータ構造を特徴とする関数データを扱うために開発された統計分野である。 シーケンシャルニューラルネットワーク(snn)は、機能データの基本的な側面であるシーケンスデータを処理できる特殊なニューラルネットワークである。 機能データのモデリングに非常に柔軟性があるにもかかわらず、SNNはFDAコミュニティでは不十分に採用されている。 snnの特筆すべきアドバンテージは実装の容易さであり、アカデミアを超えて幅広いオーディエンスに利用可能である。 逆に、FDAベースの方法論は、特に現場外の実践者にとって、複雑な複雑さのために課題を提示している。 そこで我々は,SNNをFDAの応用に適用し,数値実験と実世界のデータ分析に基づく一般的なFDA回帰モデルとの比較分析により,その効果を実証する。 SNNアーキテクチャは、従来のFDAメソッドの制限を超え、スケーラビリティ、柔軟性、分析性能の改善を提供します。 本研究は,機能的データを含むデータアプリケーションのための強力なツールとして,SNNベースの方法論の可能性を強調した。

Functional Data Analysis (FDA) is a statistical domain developed to handle functional data characterized by high dimensionality and complex data structures. Sequential Neural Networks (SNNs) are specialized neural networks capable of processing sequence data, a fundamental aspect of functional data. Despite their great flexibility in modeling functional data, SNNs have been inadequately employed in the FDA community. One notable advantage of SNNs is the ease of implementation, making them accessible to a broad audience beyond academia. Conversely, FDA-based methodologies present challenges, particularly for practitioners outside the field, due to their intricate complexity. In light of this, we propose utilizing SNNs in FDA applications and demonstrate their effectiveness through comparative analyses against popular FDA regression models based on numerical experiments and real-world data analysis. SNN architectures allow us to surpass the limitations of traditional FDA methods, offering scalability, flexibility, and improved analytical performance. Our findings highlight the potential of SNN-based methodologies as powerful tools for data applications involving functional data.
翻訳日:2023-11-06 14:24:25 公開日:2023-11-03
# ニューラルネットワーク検出器におけるブラックボックス対応攻撃の効率化

Efficient Black-Box Adversarial Attacks on Neural Text Detectors ( http://arxiv.org/abs/2311.01873v1 )

ライセンス: Link先を確認
Vitalii Fishchuk and Daniel Braun(参考訳) ニューラルテキスト検出器は、与えられたテキストが言語モデルによって生成されたか、あるいは人間が書いたかを検出するように訓練されたモデルである。 本稿では,gpt-3.5が生成する,人間にとって不快で注目されないテキストを,ニューラルネットワークによる誤分類を引き起こすための,単純かつ資源効率の高い3つの戦略(パラメータ調整,プロンプトエンジニアリング,文字レベルの突然変異)について検討する。 その結果,特にパラメータの微調整や文字レベルの変異が効果的な戦略であることがわかった。

Neural text detectors are models trained to detect whether a given text was generated by a language model or written by a human. In this paper, we investigate three simple and resource-efficient strategies (parameter tweaking, prompt engineering, and character-level mutations) to alter texts generated by GPT-3.5 that are unsuspicious or unnoticeable for humans but cause misclassification by neural text detectors. The results show that especially parameter tweaking and character-level mutations are effective strategies.
翻訳日:2023-11-06 14:24:07 公開日:2023-11-03
# 情報検索におけるバイアス分析のための多言語欧州議会データセット

Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval ( http://arxiv.org/abs/2311.01870v1 )

ライセンス: Link先を確認
Jinrui Yang, Timothy Baldwin, Trevor Cohn(参考訳) 欧州議会から収集された22万の多言語文書からなる,新しい多言語ベンチマークデータセットであるMulti-EuPを提案する。 このデータセットは、多言語情報検索(IR)コンテキストにおける公平性を調査し、ランキングコンテキストにおける言語と人口統計のバイアスを分析するように設計されている。 真正の多言語コーパスを持ち、24言語すべてに翻訳されたトピックと、言語間の関連性判断を特徴とする。 さらに、文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。 単言語と多言語の両方のIRをベンチマークするためのMulti-EuPの有効性を報告する。 また,トークン化戦略の選択による言語バイアスに関する予備実験を行った。

We present Multi-EuP, a new multilingual benchmark dataset, comprising 22K multi-lingual documents collected from the European Parliament, spanning 24 languages. This dataset is designed to investigate fairness in a multilingual information retrieval (IR) context to analyze both language and demographic bias in a ranking context. It boasts an authentic multilingual corpus, featuring topics translated into all 24 languages, as well as cross-lingual relevance judgments. Furthermore, it offers rich demographic information associated with its documents, facilitating the study of demographic bias. We report the effectiveness of Multi-EuP for benchmarking both monolingual and multilingual IR. We also conduct a preliminary experiment on language bias caused by the choice of tokenization strategy.
翻訳日:2023-11-06 14:23:57 公開日:2023-11-03
# 概念対応型大規模言語モデルに向けて

Towards Concept-Aware Large Language Models ( http://arxiv.org/abs/2311.01866v1 )

ライセンス: Link先を確認
Chen Shani, Jilles Vreeken, Dafna Shahaf(参考訳) 概念は、学習、推論、コミュニケーションを含む様々な人間の認知機能において重要な役割を果たす。 しかし、概念を形成・推論する能力を持つエンドウイングマシンの作業はほとんどない。 特に最先端の大規模言語モデル(llm)は概念ではなくトークンのレベルで機能する。 本研究では,現代LLMが人間の概念とその構造をどのように捉えているかを分析する。 次に、パイプラインの異なる段階で行われる概念対応LLMを開発する方法について論じる。 本稿では,概念を用いたLLMの事前学習手法をスケッチし,既存のLLMの出力を用いたシンプルなアプローチを検討する。 その単純さにもかかわらず、私たちの概念実証は人間の直感と一致し、予測の堅牢性を改善することが示されている。 これらの予備的な結果は、概念認識llmの約束の基礎となる。

Concepts play a pivotal role in various human cognitive functions, including learning, reasoning and communication. However, there is very little work on endowing machines with the ability to form and reason with concepts. In particular, state-of-the-art large language models (LLMs) work at the level of tokens, not concepts. In this work, we analyze how well contemporary LLMs capture human concepts and their structure. We then discuss ways to develop concept-aware LLMs, taking place at different stages of the pipeline. We sketch a method for pretraining LLMs using concepts, and also explore the simpler approach that uses the output of existing LLMs. Despite its simplicity, our proof-of-concept is shown to better match human intuition, as well as improve the robustness of predictions. These preliminary results underscore the promise of concept-aware LLMs.
翻訳日:2023-11-06 14:23:44 公開日:2023-11-03
# SortNet:ニューラルネットワークによるソーティングアルゴリズムでランク付けを学ぶ

SortNet: Learning To Rank By a Neural-Based Sorting Algorithm ( http://arxiv.org/abs/2311.01864v1 )

ライセンス: Link先を確認
Leonardo Rigutini, Tiziano Papini, Marco Maggini, Franco Scarselli(参考訳) 関連性ランキングの問題は、与えられた基準に対する一連のオブジェクトをソートすることである。 ユーザーは異なる関連性基準を好むため、ランキングアルゴリズムはユーザーのニーズに適応すべきである。 文学において、階位習得のための主なアプローチは2つある。 1) 例によって学習されたスコア関数は、オブジェクトの順序付けに使用できる絶対帰属値を与える各オブジェクトの特性を評価する。 2) ペアワイズアプローチでは、「参照関数」がオブジェクトのペアを使って学習され、どちらを最初にランク付けする必要があるかを定義する。 本稿では,ニューラルネットワークをコンパレータとしてオブジェクトを順序付けする適応的ランキングアルゴリズムであるSortNetを提案する。 ニューラルネットワークトレーニングセットは、アイテムペア間の望ましい順序の例を提供し、イテレーション毎に最も有用なトレーニング例を追加する反復手順によって構築される。 さらに、コンパレータは、特に選好関数を実装するのに適した接続主義的アーキテクチャを採用する。 また、そのようなアーキテクチャが普遍近似性を持ち、幅広い種類の関数を実装できることも証明する。 最後に,提案アルゴリズムをLETORデータセット上で評価し,他の手法と比較して有望な性能を示す。

The problem of relevance ranking consists of sorting a set of objects with respect to a given criterion. Since users may prefer different relevance criteria, the ranking algorithms should be adaptable to the user needs. Two main approaches exist in literature for the task of learning to rank: 1) a score function, learned by examples, which evaluates the properties of each object yielding an absolute relevance value that can be used to order the objects or 2) a pairwise approach, where a "preference function" is learned using pairs of objects to define which one has to be ranked first. In this paper, we present SortNet, an adaptive ranking algorithm which orders objects using a neural network as a comparator. The neural network training set provides examples of the desired ordering between pairs of items and it is constructed by an iterative procedure which, at each iteration, adds the most informative training examples. Moreover, the comparator adopts a connectionist architecture that is particularly suited for implementing a preference function. We also prove that such an architecture has the universal approximation property and can implement a wide class of functions. Finally, the proposed algorithm is evaluated on the LETOR dataset showing promising performances in comparison with other state of the art algorithms.
翻訳日:2023-11-06 14:23:32 公開日:2023-11-03
# R^3$-NL2GQL: 精度向上と幻覚軽減のためのハイブリッドモデルアプローチ

$R^3$-NL2GQL: A Hybrid Models Approach for for Accuracy Enhancing and Hallucinations Mitigation ( http://arxiv.org/abs/2311.01862v1 )

ライセンス: Link先を確認
Yuhang Zhou and He Yu and Siyu Tian and Dan Chen and Liuzhi Zhou and Xinlin Yu and Chuanjun Ji and Sen Liu and Guangnan Ye and Hongfeng Chai(参考訳) 現在のNL2SQLタスクはFoundation Modelsを使用して構築されているが、自然言語からグラフクエリ言語(NL2GQL)への直接的な適用は、GQLとSQL式と、さまざまなタイプのGQLとの大きな違いから、課題を引き起こしている。 我々の広範な実験によると、NL2GQLタスクでは、より大きなファウンデーションモデルが優れたスキーマ間一般化能力を示し、小さなファウンデーションモデルは微調整によってGQL生成能力を改善するのに苦労している。 しかし、微調整後、より小さなモデルはより優れた意図理解と文法的精度を示す。 R3-NL2GQLは,ルールベースとスロットフィリング技術から切り離され,より小型かつ大規模のファンデーションモデルの両方をリランカ,リライタ,精錬機として採用する。 このアプローチは、インフォメーションリランカとリライターのための小さなモデルの理解能力と、入力された自然言語クエリとコード構造スキーマを任意の形式でGQLに変換するための、より大きなモデルの例外的な一般化と生成能力を活用する。 この初期段階のドメインに確立されたデータセットがないことを認識し、グラフデータベースドキュメントとオープンソースの知識グラフ(KG)から派生したバイリンガルデータセットを作成しました。 このデータセット上でこのアプローチをテストした結果、有望なパフォーマンスと堅牢性が得られた。コードとデータセットはhttps://github.com/zhiqix/nl2gqlで利用可能である。

While current NL2SQL tasks constructed using Foundation Models have achieved commendable results, their direct application to Natural Language to Graph Query Language (NL2GQL) tasks poses challenges due to the significant differences between GQL and SQL expressions, as well as the numerous types of GQL. Our extensive experiments reveal that in NL2GQL tasks, larger Foundation Models demonstrate superior cross-schema generalization abilities, while smaller Foundation Models struggle to improve their GQL generation capabilities through fine-tuning. However, after fine-tuning, smaller models exhibit better intent comprehension and higher grammatical accuracy. Diverging from rule-based and slot-filling techniques, we introduce R3-NL2GQL, which employs both smaller and larger Foundation Models as reranker, rewriter and refiner. The approach harnesses the comprehension ability of smaller models for information reranker and rewriter, and the exceptional generalization and generation capabilities of larger models to transform input natural language queries and code structure schema into any form of GQLs. Recognizing the lack of established datasets in this nascent domain, we have created a bilingual dataset derived from graph database documentation and some open-source Knowledge Graphs (KGs). We tested our approach on this dataset and the experimental results showed that delivers promising performance and robustness.Our code and dataset is available at https://github.com/zhiqix/NL2GQL
翻訳日:2023-11-06 14:23:16 公開日:2023-11-03
# fame: フレキシブルでスケーラブルなアナログマッピングエンジン

FAME: Flexible, Scalable Analogy Mappings Engine ( http://arxiv.org/abs/2311.01860v1 )

ライセンス: Link先を確認
Shahar Jacob, Chen Shani, Dafna Shahaf(参考訳) アナロジーは人間の認知の中核的な能力の1つであり、新しい状況に直面したとき、私たちはしばしば他のドメインから経験を移す。 計算アナロジーに関するほとんどの作業は、複雑で手作業による入力に大きく依存している。 この作業では、入力要求を緩和し、マッピングされるエンティティの名前のみを要求する。 我々は、自動的にコモンセンス表現を抽出し、それらを使ってエンティティ間のマッピングを識別する。 以前の作業とは異なり、我々のフレームワークは部分的な類似を扱い、新しいエンティティを追加することを提案できる。 さらに,提案手法の出力は容易に解釈可能であり,ユーザが特定のマッピングを選択した理由を理解することができる。 実験により、古典的2x2類似問題の81.2%を正しくマッピングできることが示されている(ゲネスレベル=50%)。 より大きな問題では77.8%の精度を達成している(推測値=13.1%)。 別の実験では、アルゴリズムが人間のパフォーマンスを上回っており、新しい実体の自動提案は人間の提案に似ています。 私たちはこの研究が、より柔軟で現実的な入力要求への道筋を広く適用することで、計算のアナロジーを前進させることを望んでいる。

Analogy is one of the core capacities of human cognition; when faced with new situations, we often transfer prior experience from other domains. Most work on computational analogy relies heavily on complex, manually crafted input. In this work, we relax the input requirements, requiring only names of entities to be mapped. We automatically extract commonsense representations and use them to identify a mapping between the entities. Unlike previous works, our framework can handle partial analogies and suggest new entities to be added. Moreover, our method's output is easily interpretable, allowing for users to understand why a specific mapping was chosen. Experiments show that our model correctly maps 81.2% of classical 2x2 analogy problems (guess level=50%). On larger problems, it achieves 77.8% accuracy (mean guess level=13.1%). In another experiment, we show our algorithm outperforms human performance, and the automatic suggestions of new entities resemble those suggested by humans. We hope this work will advance computational analogy by paving the way to more flexible, realistic input requirements, with broader applicability.
翻訳日:2023-11-06 14:22:49 公開日:2023-11-03
# 尿パラメータに基づく新型コロナウイルススクリーニングのためのアンサンブル機械学習アプローチ

An Ensemble Machine Learning Approach for Screening Covid-19 based on Urine Parameters ( http://arxiv.org/abs/2311.01854v1 )

ライセンス: Link先を確認
Behzad Moayedi, Abdalsamad Keramatfar, Mohammad Hadi Goldani, Mohammad Javad Fallahi, Alborz Jahangirisisakht, Mohammad Saboori, Leyla badiei(参考訳) 新型コロナウイルスの急速な拡大と新型ウイルスの出現は、効果的なスクリーニング対策の重要性を強調している。 感染した個体の迅速診断と検疫は、社会におけるウイルスのさらなる拡散を防ぐことができる。 PCR検査は新型コロナウイルス(COVID-19)の診断における金の基準であるが、費用と時間を要する。 対照的に、尿検査帯は安価で非侵襲的で迅速に入手可能なスクリーニング方法であり、患者の健康状態に関する重要な情報を提供する。 本研究では,新しいデータセットを収集し,尿路検査パラメータのrgb (red green blue)色空間を用いて,個人の健康状態を検出する。 モデルの精度を向上させるために、rgbの空間を10の色空間に変換しました。 4つの異なる機械学習モデルの評価の後、我々は多層パーセプトロンニューラルネットワークに基づく新しいアンサンブルモデルを提案した。 最初の結果はあまり強くなかったが、モデルスペースの不確かさを取り除くことで、covid-19のスクリーニング性能を向上させることができた。 最終的に尿のパラメータに基づいて80%のスクリーニング精度を得た。 以上の結果から,尿検査ストリップは,特にPCR検査が不可能な資源制約のある環境では,新型コロナウイルススクリーニングに有用であることが示唆された。 以上の知見を検証し, 診断・管理における尿検査帯の役割について検討する上で, さらなる研究が必要である。

The rapid spread of COVID-19 and the emergence of new variants underscore the importance of effective screening measures. Rapid diagnosis and subsequent quarantine of infected individuals can prevent further spread of the virus in society. While PCR tests are the gold standard for COVID-19 diagnosis, they are costly and time-consuming. In contrast, urine test strips are an inexpensive, non-invasive, and rapidly obtainable screening method that can provide important information about a patient's health status. In this study, we collected a new dataset and used the RGB (Red Green Blue) color space of urine test strips parameters to detect the health status of individuals. To improve the accuracy of our model, we converted the RGB space to 10 additional color spaces. After evaluating four different machine learning models, we proposed a new ensemble model based on a multi-layer perceptron neural network. Although the initial results were not strong, we were able to improve the model's screening performance for COVID-19 by removing uncertain regions of the model space. Ultimately, our model achieved a screening accuracy of 80% based on urine parameters. Our results suggest that urine test strips can be a useful tool for COVID-19 screening, particularly in resource-constrained settings where PCR testing may not be feasible. Further research is needed to validate our findings and explore the potential role of urine test strips in COVID-19 diagnosis and management.
翻訳日:2023-11-06 14:22:33 公開日:2023-11-03
# 量子アニーリングを用いた複数ターゲットによるアクティブ宇宙ゴミ除去ミッションの最適化

Optimisation of Active Space Debris Removal Missions With Multiple Targets Using Quantum Annealing ( http://arxiv.org/abs/2311.01852v1 )

ライセンス: Link先を確認
Thomas Swain(参考訳) 類似の傾斜を持つ近周軌道上の物体の集合から複数の物体を対象とするアクティブデブリ除去ミッションの解析戦略を示す。 代数的手法は、特定の振子間移動と廃棄方法に関する軌道力学を単純な計算に還元することに成功し、これは2次非拘束バイナリ最適化(QUBO)問題の定式化の係数として利用でき、ミッションで使用される全推進剤を最小限に抑え、ミッションの期限に間に合わせることができる。 QUBOは、古典的な計算手法を用いて人工的な小さな問題(2~11個の破片)を解くことで検証され、これらの手法を用いる際の弱点を量子アニールハードウェアを用いて解に先立って検討する。 量子処理ユニット(QPU)とD-Waveが提供する量子古典ハイブリッドソルバは同じ小さな問題を解くために使われ、それぞれのアプローチの強みと弱点に注意が払われる。 ハイブリッドソルバは、より大きな問題を解決するのに非常に効果的であることが分かる。 最後に、ハイブリット法は実際のデータセットを用いて大きな問題を解決するために用いられる。 コスモス1408衛星の破壊によって引き起こされた79個の破片から、2023年9月30日に始まったアクティブな破片除去ミッションは、20日間の処理時間で1年以内に5個の破片を処分する。 この計画は、転送と廃棄の総推進コストを0.87km/sと計算し、開始日から241日以内に納期内に十分に完了する。 この問題は6,478のバイナリ変数を使用し、約25秒のQPUアクセス時間を用いて解決される。

A strategy for the analysis of active debris removal missions targeting multiple objects from a set of objects in near-circular orbit with similar inclination is presented. Algebraic techniques successfully reduce the orbital mechanics regarding specific inter-debris transfer and disposal methods to simple computations, which can be used as the coefficients of a quadratic unconstrained binary optimisation (QUBO) problem formulation which minimises the total propellant used in the mission whilst allowing for servicing time and meeting the mission deadline. The QUBO is validated by solving artificial small problems (from 2 to 11 debris) using classical computational methods and the weaknesses in using these methods are examined prior to solution using quantum annealing hardware. The quantum processing unit (QPU) and quantum-classical hybrid solvers provided by D-Wave are then used to solve the same small problems, with attention paid to evident strengths and weaknesses of each approach. Hybrid solvers are found to be significantly more effective at solving larger problems. Finally, the hybrid method is used to solve a large problem using a real dataset. From a set of 79 debris objects resulting from the destruction of the Kosmos-1408 satellite, an active debris removal mission starting on 30 September 2023 targeting 5 debris objects for disposal within a year with 20 days servicing time per object is successfully planned. This plan calculates the total propellant cost of transfer and disposal to be 0.87km/s and would be complete well within the deadline at 241 days from the start date. This problem uses 6,478 binary variables in total and is solved using around 25s of QPU access time.
翻訳日:2023-11-06 14:22:12 公開日:2023-11-03
# フレキシブルな教育配信のためのモバイル学習プラットフォームを活用する - アフガニスタンの教育ギャップを埋める

Leveraging Mobile Learning Platforms for Flexible Education Delivery: Bridging Educational Gaps in Afghanistan ( http://arxiv.org/abs/2311.01850v1 )

ライセンス: Link先を確認
Mursal Dawodi, Jawid Ahmad Baktash, Sayed Mohammad Reza Dawodi(参考訳) アフガニスタンの教育環境は、インフラ上の不備や社会政治の混乱に苦しめられ、モバイル学習プラットフォームを統合する上で魅力的なケースとなっている。 本稿では,アフガニスタンにおける教育変革の潜在的なハービンジャーとして,モバイル学習の領域を探索的に旅する。 広く普及している教育の課題を浮き彫りにし、モバイル学習プラットフォームを支える技術革新を強調し、モバイル学習が教育への障壁を超越する道筋を照らす。 実世界のケーススタディに富んだこの物語は、アフガニスタンのユニークな文脈に適合するモバイル学習ソリューションに活用できる実践的な教訓を浮き彫りにした。 この議論はさらに、学術、政府、民間セクター、およびモバイル学習プラットフォームの実現に不可欠な国際機関間の相乗的相互作用を解明し、協調的な地平を横切る。 この記事ではまた、政策の定式化、インフラの強化、キャパシティビルディングの3つの側面を強調し、実践的な勧告も提供する。 モバイル学習プラットフォームの統合は、アフガニスタンにおけるよりアクセスしやすく、包括的で弾力性のある教育フレームワークへのパラダイムシフトを拡大し、社会経済の発展に大きく影響している。 本稿は、技術、政策、協力的努力の綿密な融合を通じて、アフガニスタンが教育的ルネッサンスの頂点に立っており、モバイル学習プラットフォームがこの想定される地平への重要な経路として機能していることを示唆する。

The educational landscape of Afghanistan, besieged by infrastructural inadequacies and socio-political tribulations, presents a compelling case for the integration of mobile learning platforms. This article embarks on an exploratory voyage into the realms of mobile learning as a potential harbinger of educational transformation in Afghanistan. It delineates the pervasive educational challenges, underscores the technological innovations powering mobile learning platforms, and illuminates the pathways through which mobile learning can transcend the extant barriers to education. Enriched by real-world case studies, the narrative unravels the pragmatic lessons that can be harnessed to tailor mobile learning solutions to Afghanistan's unique context. The discussion further traverses the collaborative horizon, elucidating the synergistic interplay among academia, government, the private sector, and international bodies essential for the successful implementation of mobile learning platforms. The article also furnishes pragmatic recommendations, emphasizing the triad of policy formulation, infrastructure enhancement, and capacity building as cornerstone imperatives. The envisioned integration of mobile learning platforms augurs a paradigmatic shift towards a more accessible, inclusive, and resilient educational framework in Afghanistan, with far-reaching implications for socio-economic development. Through a meticulous amalgamation of technology, policy, and collaborative endeavors, this article posits that Afghanistan stands on the cusp of an educational renaissance, with mobile learning platforms serving as a pivotal conduit toward this envisioned horizon.
翻訳日:2023-11-06 14:21:40 公開日:2023-11-03
# 強電界イオン化の精密半古典的モデルのための高度運動量サンプリングとマスロフ相

Advanced momentum sampling and Maslov phases for a precise semiclassical model of strong-field ionization ( http://arxiv.org/abs/2311.01845v1 )

ライセンス: Link先を確認
Mads Br{\o}ndum Carlsen, Emil Hansen, Lars Bojer Madsen and Andrew Stephen Maxwell(参考訳) 再結合過程は強場物理学とattoscienceの基本であり、再結合軌道と量子振幅を繋ぐモデルはこれらの過程の理解を深める上で重要な部分である。 半古典的経路積分型クーロン量子軌道強電界近似モデルにおいて,マスロフ相と呼ばれる付加相を含むことで強電界イオン化を行い,初期モーメントのモンテカルロ型サンプリングによる新しい解法を実現した。 そうすることで、水素、ヘリウム、アルゴンの時間依存的なシュリンガー方程式の解と例外的な一致が得られる。 これらの対象に対する光電子運動量分布の詳細な解析を行い,saddle-point方程式の解から生じる量子軌道を用いて解析を行った。 この分析は、レーザー駆動の長い軌道と短い軌道を含む新しい種類の再散乱軌道と、新しいクーロン駆動再散乱軌道をもたらす。 モデルの精度により、光電子ホログラフィー、レーザー誘起電子回折、高次のしきい値イオン化などの強磁場現象を詳細に調査する扉を開く。

Recollision processes are fundamental to strong-field physics and attoscience, thus models connecting recolliding trajectories to quantum amplitudes are a crucial part in furthering understanding of these processes. We report developments in the semiclassical path-integral-based Coulomb quantum-orbit strong-field approximation model for strong-field ionization by including an additional phase known as Maslov's phase and implementing a new solution strategy via Monte-Carlo-style sampling of the initial momenta. In doing so, we obtain exceptional agreement with solutions to the time-dependent Schr\"odinger equation for hydrogen, helium, and argon. We provide an in-depth analysis of the resulting photoelectron momentum distributions for these targets, facilitated by the quantum-orbits arising from the solutions to the saddle-point equations. The analysis yields a new class of rescattered trajectories that includes the well-known laser-driven long and short trajectories, along with novel Coulomb-driven rescattered trajectories. By virtue of the precision of the model, it opens the door to detailed investigations of a plethora of strong-field phenomena such as photoelectron holography, laser-induced electron diffraction and high-order above threshold ionization.
翻訳日:2023-11-06 14:21:13 公開日:2023-11-03
# インテリジェント多層ビュー合成のためのニューラルラジアンス場に基づくアーキテクチャ

A Neural Radiance Field-Based Architecture for Intelligent Multilayered View Synthesis ( http://arxiv.org/abs/2311.01842v1 )

ライセンス: Link先を確認
D. Dhinakaran, S. M. Udhaya Sankar, G. Elumalai, N. Jagadish kumar(参考訳) モバイルアドホックネットワークは、複数のワイヤレスポータブルノードで構成されており、中央管理を必要とせず、トランザクショナルネットワークを確立するために、途中で自発的に集まります。 移動アドホックネットワーク(mobile ad hoc network, manet)は、任意の地形を横断し、通信のための無線インターフェースのみに依存し、集中管理の前にはうまく動作しない、相当かつ合理的に密集したモバイルノードのコミュニティで構成されている。 さらに、ルーティングは、2つのノード間のネットワーク間でデータを即時に配信する方法を提供する。 しかし、インフラストラクチャ全体から最高のパケットルーティングを見つけることは大きな問題である。 提案プロトコルの主な目的は、ノードが故障した場合の耐久性を保証するために、現実的なトランスポートの輸送を保証する、最小限の名目キャパシティ取得を特定することである。 本研究は、オンデマンドソースルーティングシステムを改善する手段として、Red Imported Fire Ants(RIFA)戦略による最適化経路選択を提案する。 経路故障とエネルギー利用の予測は、経路段階の経路を選択するために用いられる。 提案手法は、エネルギー使用量、パケット配送率(pdr)、エンドツーエンド遅延(e2e)などの性能パラメータに基づいて比較結果を評価する。 その結果,提案手法が好ましく,ノードのエネルギー消費と典型的なE2E遅延をネットワーク性能の指標や要因の多数で低減しつつ,ネットワーク寿命を向上することを示した。

A mobile ad hoc network is made up of a number of wireless portable nodes that spontaneously come together en route for establish a transitory network with no need for any central management. A mobile ad hoc network (MANET) is made up of a sizable and reasonably dense community of mobile nodes that travel across any terrain and rely solely on wireless interfaces for communication, not on any well before centralized management. Furthermore, routing be supposed to offer a method for instantly delivering data across a network between any two nodes. Finding the best packet routing from across infrastructure is the major issue, though. The proposed protocol's major goal is to identify the least-expensive nominal capacity acquisition that assures the transportation of realistic transport that ensures its durability in the event of any node failure. This study suggests the Optimized Route Selection via Red Imported Fire Ants (RIFA) Strategy as a way to improve on-demand source routing systems. Predicting Route Failure and energy Utilization is used to pick the path during the routing phase. Proposed work assess the results of the comparisons based on performance parameters like as energy usage, packet delivery rate (PDR), and end-to-end (E2E) delay. The outcome demonstrates that the proposed strategy is preferable and increases network lifetime while lowering node energy consumption and typical E2E delay under the majority of network performance measures and factors.
翻訳日:2023-11-06 14:20:52 公開日:2023-11-03
# 多元関係グラフのスペクトルクラスタリング

Spectral Clustering of Attributed Multi-relational Graphs ( http://arxiv.org/abs/2311.01840v1 )

ライセンス: Link先を確認
Ylli Sadikaj, Yllka Velaj, Sahar Behzadi, Claudia Plant(参考訳) グラフクラスタリングは、類似ノードが共通のクラスタに割り当てられるように、ノードの自然なグループ化を見つけることを目的としている。 単純なグラフ、ノードに関連付けられた属性を持つグラフ、エッジがノード間の異なるタイプの関係を表すグラフなど、多くの異なるアルゴリズムが文献に提案されている。 しかし、多くの領域における複雑なデータは属性付きおよびマルチリレーショナルネットワークとして表現できる。 本稿では,カテゴリのノード属性を持つ多元関係グラフに対する同時次元化手法であるspectrummixを提案する。 spectrummixは属性、異なる種類の関係、およびグラフ構造から利用可能な全ての情報を統合し、クラスタリング結果の適切な解釈を可能にする。 さらに、単一のグラフにのみ適用される場合のスペクトル埋め込みとクラスタリング、カテゴリデータに適用される場合の均質性解析など、既存のテクニックを一般化する。 いくつかの実世界のデータセットで行った実験により、グラフ構造とカテゴリ属性の依存関係を検出することができ、また既存の手法よりもSpectralMixの方が優れていることを示す。

Graph clustering aims at discovering a natural grouping of the nodes such that similar nodes are assigned to a common cluster. Many different algorithms have been proposed in the literature: for simple graphs, for graphs with attributes associated to nodes, and for graphs where edges represent different types of relations among nodes. However, complex data in many domains can be represented as both attributed and multi-relational networks. In this paper, we propose SpectralMix, a joint dimensionality reduction technique for multi-relational graphs with categorical node attributes. SpectralMix integrates all information available from the attributes, the different types of relations, and the graph structure to enable a sound interpretation of the clustering results. Moreover, it generalizes existing techniques: it reduces to spectral embedding and clustering when only applied to a single graph and to homogeneity analysis when applied to categorical data. Experiments conducted on several real-world datasets enable us to detect dependencies between graph structure and categorical attributes, moreover, they exhibit the superiority of SpectralMix over existing methods.
翻訳日:2023-11-06 14:20:28 公開日:2023-11-03
# 公正が抽象であるとき--スウェーデンの強制教育における平等とAI

When fairness is an abstraction: Equity and AI in Swedish compulsory education ( http://arxiv.org/abs/2311.01838v1 )

ライセンス: Link先を確認
Marie Utterberg Mod\'en, Marisa Ponti, Johan Lundin, Martin Tallvid (Department of Applied Information Technology, University of Gothenburg, Sweden)(参考訳) 人工知能の専門家は、AIが公正かどうかにしばしば疑問を呈する。 彼らは公正を、社会政治や経済システムではなく、AIシステムの特性と見なしている。 本稿では、教育システムがAIを運用・活用する社会、政治、経済の文脈において公正である必要性を強調する。 スウェーデンの分権的強制教育を文脈として、国家当局やエドテック企業によるAIの使用が不公平を悪化させるかどうかを考察する。 スウェーデンの政策文書とEdtechレポートの質的内容分析は、関連社会グループの概念を用いて、異なるグループが公正性のためにAIのリスクと利益をどのように見ているかを理解するために行われた。 効率をAIの重要な価値とみなす3つのグループが特定され、経済的、教育的、アクセシビリティ関連のものとして解釈される。 公平性と社会的正義を分離することで、公平性の概念を機会の形式的平等として挑戦する。

Artificial intelligence experts often question whether AI is fair. They view fairness as a property of AI systems rather than of sociopolitical and economic systems. This paper emphasizes the need to be fair in the social, political, and economic contexts within which an educational system operates and uses AI. Taking Swedish decentralized compulsory education as the context, this paper examines whether and how the use of AI envisaged by national authorities and edtech companies exacerbates unfairness. A qualitative content analysis of selected Swedish policy documents and edtech reports was conducted using the concept of relevant social groups to understand how different groups view the risks and benefits of AI for fairness. Three groups that view efficiency as a key value of AI are identified, and interpreted as economical, pedagogical and accessibility-related. By separating fairness from social justice, this paper challenges the notion of fairness as the formal equality of opportunities.
翻訳日:2023-11-06 14:20:11 公開日:2023-11-03
# 高エネルギー物理のための量子センサー

Quantum Sensors for High Energy Physics ( http://arxiv.org/abs/2311.01930v1 )

ライセンス: Link先を確認
Aaron Chou, Kent Irwin, Reina H. Maruyama, Oliver K. Baker, Chelsea Bartram, Karl K. Berggren, Gustavo Cancelo, Daniel Carney, Clarence L. Chang, Hsiao-Mei Cho, Maurice Garcia-Sciveres, Peter W. Graham, Salman Habib, Roni Harnik, J. G. E. Harris, Scott A. Hertel, David B. Hume, Rakshya Khatiwada, Timothy L. Kovachy, Noah Kurinsky, Steve K. Lamoreaux, Konrad W. Lehnert, David R. Leibrandt, Dale Li, Ben Loer, Juli\'an Mart\'inez-Rinc\'on, Lee McCuller, David C. Moore, Holger Mueller, Cristian Pena, Raphael C. Pooser, Matt Pyle, Surjeet Rajendran, Marianna S. Safronova, David I. Schuster, Matthew D. Shaw, Maria Spiropulu, Paul Stankus, Alexander O. Sushkov, Lindley Winslow, Si Xie, Kathryn M. Zurek(参考訳) 量子センシングに投資する強い動機は、標準モデルでよく説明されている物質や分野に非常に弱い結合を持つ現象を研究する必要性から生じる。 これらはダークマターの問題、ダークマターに必ずしも関係しないダークセクタ(例えば、無菌ニュートリノ)、ダークエネルギーと重力、基本定数、qcdの強いcp問題を含む標準モデル自体の問題と関連付けられる。 実験的な要求は、通常大きな背景の下に埋もれている非常に低エネルギーのインパルスまたは低電力周期的な信号を測定することである。 本報告では、2023年の高エネルギー物理学ワークショップの成果を報告し、将来の粒子物理学実験で活用できる量子情報科学技術の実現を特定し、高エネルギー物理学の目標を目標とした。

Strong motivation for investing in quantum sensing arises from the need to investigate phenomena that are very weakly coupled to the matter and fields well described by the Standard Model. These can be related to the problems of dark matter, dark sectors not necessarily related to dark matter (for example sterile neutrinos), dark energy and gravity, fundamental constants, and problems with the Standard Model itself including the Strong CP problem in QCD. Resulting experimental needs typically involve the measurement of very low energy impulses or low power periodic signals that are normally buried under large backgrounds. This report documents the findings of the 2023 Quantum Sensors for High Energy Physics workshop which identified enabling quantum information science technologies that could be utilized in future particle physics experiments, targeting high energy physics science goals.
翻訳日:2023-11-06 14:13:25 公開日:2023-11-03
# 定量的心臓MRIにおけるロバストPCAによるコントラスト非依存的グループ登録

Contrast-Agnostic Groupwise Registration by Robust PCA for Quantitative Cardiac MRI ( http://arxiv.org/abs/2311.01916v1 )

ライセンス: Link先を確認
Xinqi Li, Yi Zhang, Yidong Zhao, Jan van Gemert, Qian Tao(参考訳) 定量的心磁気共鳴画像(MRI)は、心臓血管疾患の診断ツールとしてますます重要になっている。 しかし、定量的MRIシーケンス内の全てのベースライン画像の共登録は、定量的マップの精度と精度に不可欠である。 しかし、定量的な心臓mriシーケンスから全てのベースライン画像を共登録することは、心臓と呼吸の運動と組み合わせて、強度とコントラストが同時に変化するため、非自明な作業である。 この課題に対処するために, 定量的心臓MRIを低ランク, スパース成分に分解するロバスト原理成分分析(rPCA)に基づく新しい動作補正フレームワークを提案し, グループワイドCNNベースの登録バックボーンをrPCAフレームワークに統合する。 rPCAの低ランク成分は定量的なマッピング(つまり変動の自由度に制限がある)に対応し、スパース成分は残留運動に対応し、グループ登録問題の定式化と解決が容易になる。 ガドリニウム造影剤投与前後の心t1マッピング法を改良型ルック・ロッカー・インバージョン・リカバリ(molli)により検討した。 提案手法は,rPCAを導入することなく,ベースライン方式の登録性能を効果的に向上し,インドメイン(事前コントラストMOLLI)とアウトオブドメイン(後コントラストMOLLI)の両方での量的マッピング誤差を低減した。 提案されているrPCAフレームワークは汎用的であり、他の登録バックボーンと統合することができる。

Quantitative cardiac magnetic resonance imaging (MRI) is an increasingly important diagnostic tool for cardiovascular diseases. Yet, co-registration of all baseline images within the quantitative MRI sequence is essential for the accuracy and precision of quantitative maps. However, co-registering all baseline images from a quantitative cardiac MRI sequence remains a nontrivial task because of the simultaneous changes in intensity and contrast, in combination with cardiac and respiratory motion. To address the challenge, we propose a novel motion correction framework based on robust principle component analysis (rPCA) that decomposes quantitative cardiac MRI into low-rank and sparse components, and we integrate the groupwise CNN-based registration backbone within the rPCA framework. The low-rank component of rPCA corresponds to the quantitative mapping (i.e. limited degree of freedom in variation), while the sparse component corresponds to the residual motion, making it easier to formulate and solve the groupwise registration problem. We evaluated our proposed method on cardiac T1 mapping by the modified Look-Locker inversion recovery (MOLLI) sequence, both before and after the Gadolinium contrast agent administration. Our experiments showed that our method effectively improved registration performance over baseline methods without introducing rPCA, and reduced quantitative mapping error in both in-domain (pre-contrast MOLLI) and out-of-domain (post-contrast MOLLI) inference. The proposed rPCA framework is generic and can be integrated with other registration backbones.
翻訳日:2023-11-06 14:13:09 公開日:2023-11-03
# AR補助神経外科システムのエンド・ツー・エンド評価

End-to-End assessment of AR-assisted neurosurgery systems ( http://arxiv.org/abs/2311.01912v1 )

ライセンス: Link先を確認
Mahdi Bagheri, Farhad Piri, Hadi Digale, Saem Sattarzadeh, Mohammad Reza Mohammadi(参考訳) Augmented Reality (AR) は、従来の神経ナビゲーション法によって引き起こされる課題に対する解決策として、外科手術の大幅な進歩として現れている。 これらの従来の手法では、外科医が焦点を手術部位とガイド画像を表示する別個のモニターに分ける必要があることが多い。 長年にわたり、ホログラムの登録と追跡のために多くのシステムが開発され、それぞれ独自の評価技術を用いている。 一方、ホログラムの変位測定は、閉塞、振動・振動の衝突、空間における不安定なホログラムなど様々な要因により、簡単な作業ではない。 本研究では,ar支援神経外科システムを評価するための異なる手法を探索・分類し,評価手順を体系化する新しい手法を提案する。 また,手術前および術中段階での手術誤差を各フィードバックに基づいてより深く検討した。 その結果,本システムは登録と追跡の誤差を負うことができるが,物理的フィードバックはホログラム変位による誤差を著しく低減できることがわかった。 しかし,ホログラムに対する視覚的フィードバックの欠如は,利用者の3次元知覚に有意な影響を及ぼさない。

Augmented Reality (AR) has emerged as a significant advancement in surgical procedures, offering a solution to the challenges posed by traditional neuronavigation methods. These conventional techniques often necessitate surgeons to split their focus between the surgical site and a separate monitor that displays guiding images. Over the years, many systems have been developed to register and track the hologram at the targeted locations, each employed its own evaluation technique. On the other hand, hologram displacement measurement is not a straightforward task because of various factors such as occlusion, Vengence-Accomodation Conflict, and unstable holograms in space. In this study, we explore and classify different techniques for assessing an AR-assisted neurosurgery system and propose a new technique to systematize the assessment procedure. Moreover, we conduct a deeper investigation to assess surgeon error in the pre- and intra-operative phases of the surgery based on the respective feedback given. We found that although the system can undergo registration and tracking errors, physical feedback can significantly reduce the error caused by hologram displacement. However, the lack of visual feedback on the hologram does not have a significant effect on the user 3D perception.
翻訳日:2023-11-06 14:12:40 公開日:2023-11-03
# 放射線オンコロジーにおけるLLM駆動マルチモーダルターゲットボリューム構成

LLM-driven Multimodal Target Volume Contouring in Radiation Oncology ( http://arxiv.org/abs/2311.01908v1 )

ライセンス: Link先を確認
Yujin Oh, Sangjoon Park, Hwa Kyung Byun, Jin Sung Kim, Jong Chul Ye(参考訳) 放射線治療のためのターゲットボリュームは,画像とテキストに基づく臨床情報の両方を活用する必要があるため,通常の臓器分割作業よりもかなり困難であると考えられる。 テキスト情報と画像の統合を容易にする大規模言語モデル(LLMs)の最近の進歩に触発されて,臨床テキスト情報を活用し,放射線治療のための目標音量コンチューリングの課題に適応し,乳がん放射線治療対象音量コントゥーリングの文脈で検証できる,新たなLLM駆動型マルチモーダルAIを提案する。 実世界の応用に非常に寄与する外部検証とデータ不足環境を用いて、提案モデルが従来の視覚のみのAIモデルと比較して著しく改善された性能を示し、特に堅牢な一般化性能とデータ効率を示すことを示した。 我々の知る限り、これはLSM駆動型マルチモーダルAIモデルとしては初めてのものであり、臨床テキスト情報を放射線腫瘍学のターゲットボリュームデライン化に統合する。

Target volume contouring for radiation therapy is considered significantly more challenging than the normal organ segmentation tasks as it necessitates the utilization of both image and text-based clinical information. Inspired by the recent advancement of large language models (LLMs) that can facilitate the integration of the textural information and images, here we present a novel LLM-driven multi-modal AI that utilizes the clinical text information and is applicable to the challenging task of target volume contouring for radiation therapy, and validate it within the context of breast cancer radiation therapy target volume contouring. Using external validation and data-insufficient environments, which attributes highly conducive to real-world applications, we demonstrate that the proposed model exhibits markedly improved performance compared to conventional vision-only AI models, particularly exhibiting robust generalization performance and data-efficiency. To our best knowledge, this is the first LLM-driven multimodal AI model that integrates the clinical text information into target volume delineation for radiation oncology.
翻訳日:2023-11-06 14:12:22 公開日:2023-11-03
# BoschAI @ PLABA 2023: エンドツーエンドのニューラルネットワーク文単純化における編集操作の活用

BoschAI @ PLABA 2023: Leveraging Edit Operations in End-to-End Neural Sentence Simplification ( http://arxiv.org/abs/2311.01907v1 )

ライセンス: Link先を確認
Valentin Knappich, Simon Razniewski, Annemarie Friedrich(参考訳) 自動単純化は、素人が複雑な科学文書を理解するのに役立つ。 言語モデルは、複雑な言語から単純な言語に翻訳することで、このタスクに頻繁に適用される。 本稿では,生体医学的テキストの簡易化に取り組むplaba共有タスクで第1位となるllama 2に基づくシステムについて述べる。 入力と出力の共有トークンの大部分は、トレーニング信号の弱さと保守的なモデル編集につながることがわかった。 これらの問題を緩和するために,文レベルとトークンレベルの損失重み付けを提案する。 彼らはそれぞれ、編集距離と編集操作によって示される変更トークンに重みを与える。 我々はPLABAデータセット上で実験的な評価を行い、両者のアプローチが人間のアノテーション(+1.8% / +3.5% SARI)、より単純な言語(-1/-1.1 FKGL)、より多くの編集(1.6x / 1.8x編集距離)と、標準的なクロスエントロピーで微調整された同じモデルに近づいた。 さらに,トークンレベルの損失重みのハイパーパラメータ$\lambda$を編集距離と単純度(fkgl)を制御するために使用できることを示した。

Automatic simplification can help laypeople to comprehend complex scientific text. Language models are frequently applied to this task by translating from complex to simple language. In this paper, we describe our system based on Llama 2, which ranked first in the PLABA shared task addressing the simplification of biomedical text. We find that the large portion of shared tokens between input and output leads to weak training signals and conservatively editing models. To mitigate these issues, we propose sentence-level and token-level loss weights. They give higher weight to modified tokens, indicated by edit distance and edit operations, respectively. We conduct an empirical evaluation on the PLABA dataset and find that both approaches lead to simplifications closer to those created by human annotators (+1.8% / +3.5% SARI), simpler language (-1 / -1.1 FKGL) and more edits (1.6x / 1.8x edit distance) compared to the same model fine-tuned with standard cross entropy. We furthermore show that the hyperparameter $\lambda$ in token-level loss weights can be used to control the edit distance and the simplicity level (FKGL).
翻訳日:2023-11-06 14:12:03 公開日:2023-11-03
# トランスフォーマーブロックの簡易化

Simplifying Transformer Blocks ( http://arxiv.org/abs/2311.01906v1 )

ライセンス: Link先を確認
Bobby He and Thomas Hofmann(参考訳) ディープトランスフォーマーのシンプルな設計レシピは、同じビルディングブロックを組み立てることである。 しかし、標準のトランスフォーマーブロックは、正確に配置されたスキップ接続と正規化レイヤを備えた単純なインターウィーブアテンションやMPPサブブロックとは程遠い。 この複雑さは、微妙な変更がトレーニング速度を大幅に削減したり、トレーニング不可能なモデルをレンダリングする、不安定なアーキテクチャにつながります。 この作業では、標準トランスバータブロックをどの程度単純化できるかを問う。 信号伝搬理論と経験的観測を組み合わせることで、スキップ接続、投影または値パラメータ、シーケンシャルサブブロック、正規化層を含む、多くのブロックコンポーネントをトレーニング速度の損失なしに除去できる修正を動機付けます。 自己回帰デコーダオンリーモデルとBERTエンコーダオンモデルの両方の実験では、標準トランスの更新毎のトレーニング速度と性能をエミュレートし、15%高速なトレーニングスループットを享受し、15%少ないパラメータを使用する。

A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.
翻訳日:2023-11-06 14:11:36 公開日:2023-11-03
# カオスからキャリブレーションへ:ターゲットフリーカメラlidar-extrinsic calibrationへの幾何学的相互情報アプローチ

From Chaos to Calibration: A Geometric Mutual Information Approach to Target-Free Camera LiDAR Extrinsic Calibration ( http://arxiv.org/abs/2311.01905v1 )

ライセンス: Link先を確認
Jack Borer, Jeremy Tschirner, Florian \"Olsner, Stefan Milz(参考訳) センサー融合は自動運転車の安全で堅牢な運用に不可欠である。 複数のセンサのデータを共通空間参照フレームで正確に融合させるには,センサキャリブレーションに対する正確な外部センサが必要である。 本稿では,真理トレーニングデータや人為的制約付きモーショントラジェクタ,手工学的特徴量,オフライン最適化を必要とせず,精度,精度,精度,初期化誤差に対して極めて頑健な目標自由外部キャリブレーションアルゴリズムを提案する。 オンラインカメラ-LiDARの外的キャリブレーションに関する最近の研究は、大規模な撮影が不可能な地上の真実のトレーニングデータを必要とする。 2012年に初めて提案された分析的相互情報ベース手法を再検討し,幾何学的特徴がカメラ・ライダーの極端校正にロバストな情報指標を提供することを示した。 我々は,KITTI と KITTI-360 の魚眼データセットを用いた改良を行った。

Sensor fusion is vital for the safe and robust operation of autonomous vehicles. Accurate extrinsic sensor to sensor calibration is necessary to accurately fuse multiple sensor's data in a common spatial reference frame. In this paper, we propose a target free extrinsic calibration algorithm that requires no ground truth training data, artificially constrained motion trajectories, hand engineered features or offline optimization and that is accurate, precise and extremely robust to initialization error. Most current research on online camera-LiDAR extrinsic calibration requires ground truth training data which is impossible to capture at scale. We revisit analytical mutual information based methods first proposed in 2012 and demonstrate that geometric features provide a robust information metric for camera-LiDAR extrinsic calibration. We demonstrate our proposed improvement using the KITTI and KITTI-360 fisheye data set.
翻訳日:2023-11-06 14:11:07 公開日:2023-11-03
# 条件付きランダム化による高精度因果モデル評価

High Precision Causal Model Evaluation with Conditional Randomization ( http://arxiv.org/abs/2311.01902v1 )

ライセンス: Link先を確認
Chao Ma, Cheng Zhang(参考訳) 因果モデル評価のゴールド標準は、モデル予測とランダム化対照試験(rct)から推定される真の効果を比較することである。 しかし、rctは常に実行可能または倫理的ではない。 対照的に、逆確率重み付け(IPW)に基づく条件付きランダム化実験は、より現実的なアプローチを提供するが、高い推定分散に悩まされる。 この課題に対処し、実世界の条件付きランダム化設定における因果モデル評価を強化するために、ペア推定器と呼ばれる因果誤差の新しい低分散推定器を導入する。 モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、漸近的分散を小さくする。 実験的な研究は、推定器の改良を実証し、近RCT性能の実現の可能性を強調した。 提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルの評価をシンプルかつ強力に行い,より堅牢で信頼性の高いモデル評価を行う。

The gold standard for causal model evaluation involves comparing model predictions with true effects estimated from randomized controlled trials (RCT). However, RCTs are not always feasible or ethical to perform. In contrast, conditionally randomized experiments based on inverse probability weighting (IPW) offer a more realistic approach but may suffer from high estimation variance. To tackle this challenge and enhance causal model evaluation in real-world conditional randomization settings, we introduce a novel low-variance estimator for causal error, dubbed as the pairs estimator. By applying the same IPW estimator to both the model and true experimental effects, our estimator effectively cancels out the variance due to IPW and achieves a smaller asymptotic variance. Empirical studies demonstrate the improved of our estimator, highlighting its potential on achieving near-RCT performance. Our method offers a simple yet powerful solution to evaluate causal inference models in conditional randomization settings without complicated modification of the IPW estimator itself, paving the way for more robust and reliable model assessments.
翻訳日:2023-11-06 14:10:40 公開日:2023-11-03
# Pearson-divergence関数最小化によるオンライン非パラメトリック確率比推定

Online non-parametric likelihood-ratio estimation by Pearson-divergence functional minimization ( http://arxiv.org/abs/2311.01900v1 )

ライセンス: Link先を確認
Alejandro de la Concha, Nicolas Vayatis, Argyris Kalogeratos(参考訳) 2つの確率密度関数、$p$と$q$の差を定量化することは、統計と機械学習において根本的な問題である。 この問題に対処するための一般的なアプローチは、主にオフラインの場合、$p$と$q$の間の確率比推定(LRE)である。 本稿では, オンライン非パラメトリックlre (olre) の枠組みを導入し, iid 観測のペア $(x_t \sim p, x'_t \sim q)$ を時間とともに観測する。 我々のアプローチの非パラメトリックな性質は、$p$と$q$という形式によらないという利点があります。 さらに,カーネル手法と機能最小化の最近の進歩に乗じて,オンラインで効率的に更新できる推定器を開発する。 合成実験においてolre法の性能を理論的に保証し,実証的な検証を行う。

Quantifying the difference between two probability density functions, $p$ and $q$, using available data, is a fundamental problem in Statistics and Machine Learning. A usual approach for addressing this problem is the likelihood-ratio estimation (LRE) between $p$ and $q$, which -- to our best knowledge -- has been investigated mainly for the offline case. This paper contributes by introducing a new framework for online non-parametric LRE (OLRE) for the setting where pairs of iid observations $(x_t \sim p, x'_t \sim q)$ are observed over time. The non-parametric nature of our approach has the advantage of being agnostic to the forms of $p$ and $q$. Moreover, we capitalize on the recent advances in Kernel Methods and functional minimization to develop an estimator that can be efficiently updated online. We provide theoretical guarantees for the performance of the OLRE method along with empirical validation in synthetic experiments.
翻訳日:2023-11-06 14:10:07 公開日:2023-11-03
# ストレステストaiセグメンテーションネットワークにおけるt2 flair mr画像の獲得シフトのシミュレーション

Simulation of acquisition shifts in T2 Flair MR images to stress test AI segmentation networks ( http://arxiv.org/abs/2311.01894v1 )

ライセンス: Link先を確認
Christiane Posselt (1), Mehmet Yigit Avci (2), Mehmet Yigitsoy (2), Patrick Sch\"unke (3), Christoph Kolbitsch (3), Tobias Sch\"affter (3 and 4), Stefanie Remmele (1) ((1) University of Applied Sciences, Faculty of Electrical and Industrial Engineering, Am Lurzenhof 1, Landshut, Germany, (2) deepc GmbH, Blumenstrasse 28, 80331 Munich, Germany, (3) Physikalisch Technische Bundesanstalt, Abbestrasse 2-12, 10587 Berlin, Germany, (4) Technical University of Berlin, Department of Medical Engineering, Dovestrasse 6, Berlin, Germany)(参考訳) 目的:T2重み付き(T2w)流体減衰インバージョンリカバリ(FLAIR)磁気共鳴イメージング(MRI)プロトコルの臨床試験で一般的に発生する買収シフトに対するディープセグメンテーションネットワークの「ストレステスト」を可能にする、定期的な神経画像検査データのシミュレーションフレームワークを提供する。 アプローチ: この手法はMR信号方程式に基づいてMR画像の「獲得シフト微分」をシミュレートする。 実験は、実MRスキャンによるシミュレーション画像の検証と、最先端のMS病変セグメンテーションネットワーク上でのストレステストにより、コントラスト影響配列パラメータのエコー時間(TE)と反転時間(TI)に依存するF1スコアを記述するための一般的なモデル関数を探索する。 結果: 実画像とシミュレーション画像の違いは, 極端なパラメータ設定では, 灰色と白質で最大 19 % であった。 テスト中のセグメンテーションネットワークでは、TEおよびTIに対するF1スコア依存は二次モデル関数(R^2 > 0.9)によってよく説明できる。 モデル関数の係数は、TEの変化がTIよりもモデル性能に強い影響を与えることを示している。 結論: これらの偏差は, 文献で記述した緩和時間の誤差や個人差によって生じる可能性がある値の範囲にあることを示す。 F1モデル関数の係数は、TEとTIの影響を定量的に比較することができる。 制限は主に低ベースラインシグナル(CSFなど)を持つ組織から生じ、DICOMヘッダの欠落情報のためにモデル化できないコントラスト影響尺度を含む場合である。

Purpose: To provide a simulation framework for routine neuroimaging test data, which allows for "stress testing" of deep segmentation networks against acquisition shifts that commonly occur in clinical practice for T2 weighted (T2w) fluid attenuated inversion recovery (FLAIR) Magnetic Resonance Imaging (MRI) protocols. Approach: The approach simulates "acquisition shift derivatives" of MR images based on MR signal equations. Experiments comprise the validation of the simulated images by real MR scans and example stress tests on state-of-the-art MS lesion segmentation networks to explore a generic model function to describe the F1 score in dependence of the contrast-affecting sequence parameters echo time (TE) and inversion time (TI). Results: The differences between real and simulated images range up to 19 % in gray and white matter for extreme parameter settings. For the segmentation networks under test the F1 score dependency on TE and TI can be well described by quadratic model functions (R^2 > 0.9). The coefficients of the model functions indicate that changes of TE have more influence on the model performance than TI. Conclusions: We show that these deviations are in the range of values as may be caused by erroneous or individual differences of relaxation times as described by literature. The coefficients of the F1 model function allow for quantitative comparison of the influences of TE and TI. Limitations arise mainly from tissues with the low baseline signal (like CSF) and when the protocol contains contrast-affecting measures that cannot be modelled due to missing information in the DICOM header.
翻訳日:2023-11-06 14:09:16 公開日:2023-11-03
# エントロピーに基づくELBOを用いたスパース符号の学習

Learning Sparse Codes with Entropy-Based ELBOs ( http://arxiv.org/abs/2311.01888v1 )

ライセンス: Link先を確認
Dmytro Velychko, Simon Damm, Asja Fischer and J\"org L\"ucke(参考訳) 標準的な確率的スパース符号は、ラプラス、潜在値から可観測値への線型写像、ガウス可観測分布を前提としている。 ここでは、標準スパース符号化のパラメータに対するエントロピーベースの学習目標のみを導出する。 a) 写像近似とは異なり、確率的推論には非自明な後続近似を用いる; (b) 以前の非自明な近似とは異なり、新しい目的は完全に解析的である; (c) 目的は、新しい原理に基づくアニーリングを可能にする。 この目的は、まず標準ELBOの目的がエントロピーの和に収束することを示し、これはガウス以前の生成モデルと同様の結果と一致する。 ELBOがエントロピーと等しくなる条件は解析解を持つことが示され、完全な解析目的が導かれる。 このようなエントロピーに基づくelboを用いた学習の可能性を示すために数値実験が用いられる。 関連する潜伏剤と深部償却近似を含む後部近似について検討した。 さらに,エントロピーに基づくアニーリングを数値的に調べた結果,学習が向上した。 しかし,本研究の主な貢献は理論的であり,(1)非自明な後続近似に対しては,(著者の知識に)標準確率的スパース符号化のための最初の解析的ELBO目標,(2)最近示されたELBOのエントロピー和への収束を学習に利用するための最初のデモを提供する。

Standard probabilistic sparse coding assumes a Laplace prior, a linear mapping from latents to observables, and Gaussian observable distributions. We here derive a solely entropy-based learning objective for the parameters of standard sparse coding. The novel variational objective has the following features: (A) unlike MAP approximations, it uses non-trivial posterior approximations for probabilistic inference; (B) unlike for previous non-trivial approximations, the novel objective is fully analytical; and (C) the objective allows for a novel principled form of annealing. The objective is derived by first showing that the standard ELBO objective converges to a sum of entropies, which matches similar recent results for generative models with Gaussian priors. The conditions under which the ELBO becomes equal to entropies are then shown to have analytical solutions, which leads to the fully analytical objective. Numerical experiments are used to demonstrate the feasibility of learning with such entropy-based ELBOs. We investigate different posterior approximations including Gaussians with correlated latents and deep amortized approximations. Furthermore, we numerically investigate entropy-based annealing which results in improved learning. Our main contributions are theoretical, however, and they are twofold: (1) for non-trivial posterior approximations, we provide the (to the knowledge of the authors) first analytical ELBO objective for standard probabilistic sparse coding; and (2) we provide the first demonstration on how a recently shown convergence of the ELBO to entropy sums can be used for learning.
翻訳日:2023-11-06 14:08:38 公開日:2023-11-03
# マルチフォーカスとマルチモーダルのギャップを埋める - マルチモーダル画像融合のための集中型統合フレームワーク

Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion ( http://arxiv.org/abs/2311.01886v1 )

ライセンス: Link先を確認
Xilai Li, Xiaosong Li, Tao Ye, Xiaoqi Cheng, Wuyang Liu, Haishu Tan(参考訳) マルチモーダル画像融合(mmif)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。 しかし、異なる焦点領域と赤外線画像を持つ複数の可視画像の融合は、実際のMMIFアプリケーションでは前例のない課題である。 これは、可視光学レンズの焦点の深さが限られており、同じシーン内で焦点情報の同時捕捉を阻害しているためである。 この問題に対処するため,本稿では,統合統合とモダリティ情報抽出のためのmmifフレームワークを提案する。 具体的には、半スパーシティーに基づく平滑化フィルタを導入し、画像を構造とテクスチャコンポーネントに分解する。 その後,様々な画像から画素焦点属性と関連データを考慮し,重要な情報を検出することのできる,テクスチャ成分を融合する新しいマルチスケール演算子を提案する。 また,シーンの輝度と適度なコントラスト維持を効果的に捉えるために,多方向周波数分散と情報エントロピーの観点から,構造成分内のエネルギー情報の分布を考察する。 既存のMMIFデータセットおよびオブジェクト検出および深度推定タスクに関する広範な実験は、提案アルゴリズムが視覚知覚および定量的評価における最先端の手法を超えることができることを一貫して証明している。 コードはhttps://github.com/ixilai/MFIF-MMIFで公開されている。

Multi-modal image fusion (MMIF) integrates valuable information from different modality images into a fused one. However, the fusion of multiple visible images with different focal regions and infrared images is a unprecedented challenge in real MMIF applications. This is because of the limited depth of the focus of visible optical lenses, which impedes the simultaneous capture of the focal information within the same scene. To address this issue, in this paper, we propose a MMIF framework for joint focused integration and modalities information extraction. Specifically, a semi-sparsity-based smoothing filter is introduced to decompose the images into structure and texture components. Subsequently, a novel multi-scale operator is proposed to fuse the texture components, capable of detecting significant information by considering the pixel focus attributes and relevant data from various modal images. Additionally, to achieve an effective capture of scene luminance and reasonable contrast maintenance, we consider the distribution of energy information in the structural components in terms of multi-directional frequency variance and information entropy. Extensive experiments on existing MMIF datasets, as well as the object detection and depth estimation tasks, consistently demonstrate that the proposed algorithm can surpass the state-of-the-art methods in visual perception and quantitative evaluation. The code is available at https://github.com/ixilai/MFIF-MMIF.
翻訳日:2023-11-06 14:08:10 公開日:2023-11-03
# エントロピー最大化による領域ランダム化

Domain Randomization via Entropy Maximization ( http://arxiv.org/abs/2311.01885v1 )

ライセンス: Link先を確認
Gabriele Tiboni, Pascal Klink, Jan Peters, Tatiana Tommasi, Carlo D'Eramo, Georgia Chalvatzaki(参考訳) シミュレーションにおけるダイナミクスパラメータの変化は、強化学習(rl)における現実のギャップを克服するためのポピュラードメインランダム化(dr)アプローチである。 それでもDRは、エージェントの振る舞いを規則化する上で高い変動性が不可欠であるが、過度にランダム化すると過度に保守的な政策につながるため、ダイナミックスパラメータのサンプリング分布の選択に強く依存する。 本稿では,実世界のデータを必要とせずにシミュレーションのトレーニング中に動的分布を自動的に形成するsim-to-real転送手法を提案する。 一般化能力を維持しつつトレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。 これを達成するにあたって、ドラモンは、現在の方針の成功確率が十分高い限り、標本力学パラメータの多様性を徐々に増やしていく。 我々はDORAEMONが高度に適応的かつ一般化可能な政策、すなわちDR文献の代表的なベースラインとは対照的に、最も広い範囲の動的パラメータでタスクを解くことにおける一貫した利点を実証的に検証する。 また,DORAEMONのゼロショット転送を成功させて実世界の未知のパラメータ下でのロボット操作で実現したSim2Realの適用性を実証した。

Varying dynamics parameters in simulation is a popular Domain Randomization (DR) approach for overcoming the reality gap in Reinforcement Learning (RL). Nevertheless, DR heavily hinges on the choice of the sampling distribution of the dynamics parameters, since high variability is crucial to regularize the agent's behavior but notoriously leads to overly conservative policies when randomizing excessively. In this paper, we propose a novel approach to address sim-to-real transfer, which automatically shapes dynamics distributions during training in simulation without requiring real-world data. We introduce DOmain RAndomization via Entropy MaximizatiON (DORAEMON), a constrained optimization problem that directly maximizes the entropy of the training distribution while retaining generalization capabilities. In achieving this, DORAEMON gradually increases the diversity of sampled dynamics parameters as long as the probability of success of the current policy is sufficiently high. We empirically validate the consistent benefits of DORAEMON in obtaining highly adaptive and generalizable policies, i.e. solving the task at hand across the widest range of dynamics parameters, as opposed to representative baselines from the DR literature. Notably, we also demonstrate the Sim2Real applicability of DORAEMON through its successful zero-shot transfer in a robotic manipulation setup under unknown real-world parameters.
翻訳日:2023-11-06 14:07:49 公開日:2023-11-03
# 長い議論の示唆的要約

Indicative Summarization of Long Discussions ( http://arxiv.org/abs/2311.01882v1 )

ライセンス: Link先を確認
Shahbaz Syed, Dominik Schwabe, Khalid Al-Khatib, Martin Potthast(参考訳) オンラインフォーラムでは、さまざまなトピックに対する異なる姿勢の交換と議論が奨励されている。 彼らは自分の議論を提示する機会を提供するだけでなく、他人の議論を広く横断的に集めることもできる。 しかし、結果として生じる長い議論は概観が難しい。 本稿では,大言語モデル(llms)を用いて,コンテンツの表として機能する長文議論の要約文を生成する新しい非教師なしアプローチを提案する。 提案手法では,まず議論文をクラスタ化し,抽象要約としてクラスタラベルを生成し,生成したクラスタラベルを議論フレームに分類することで2段階要約を行う。 広範に最適化されたプロンプトエンジニアリングアプローチに基づいて、生成クラスタラベリングとフレーム分類のための19〜LLMを評価する。 提案手法の有効性を評価するために,提案手法は,対話エクスプローラと呼ばれる新しいビジュアルインタフェースを用いて,目的主導のユーザ調査を行い,提案手法が長い議論を探索するための便利なナビゲーションツールとなることを示す。

Online forums encourage the exchange and discussion of different stances on many topics. Not only do they provide an opportunity to present one's own arguments, but may also gather a broad cross-section of others' arguments. However, the resulting long discussions are difficult to overview. This paper presents a novel unsupervised approach using large language models (LLMs) to generating indicative summaries for long discussions that basically serve as tables of contents. Our approach first clusters argument sentences, generates cluster labels as abstractive summaries, and classifies the generated cluster labels into argumentation frames resulting in a two-level summary. Based on an extensively optimized prompt engineering approach, we evaluate 19~LLMs for generative cluster labeling and frame classification. To evaluate the usefulness of our indicative summaries, we conduct a purpose-driven user study via a new visual interface called Discussion Explorer: It shows that our proposed indicative summaries serve as a convenient navigation tool to explore long discussions.
翻訳日:2023-11-06 14:07:26 公開日:2023-11-03
# LLM交渉による感性分析

Sentiment Analysis through LLM Negotiations ( http://arxiv.org/abs/2311.01876v1 )

ライセンス: Link先を確認
Xiaofei Sun, Xiaoya Li, Shengyu Zhang, Shuhe Wang, Fei Wu, Jiwei Li, Tianwei Zhang, Guoyin Wang(参考訳) 感情分析の標準的なパラダイムは、単一のLLMに依存し、コンテキスト内学習の枠組みの下で1ラウンドで決定することである。 このフレームワークは、1つのLCMによって生成された1ターンの出力が完璧な決定を下さないという重要な欠点を被る。 これは、入力の複雑な言語的現象(例えば、節構成、皮肉など)に対処するために深い推論を必要とする感情分析のタスクに特に当てはまる。 本稿では,感情分析のためのマルチLLM交渉フレームワークを提案する。 このフレームワークは、意思決定を提供する推論操作型ジェネレータと、ジェネレータの信頼性を評価するための説明導出識別器で構成される。 発電機と識別器は合意に達するまで反復する。 提案手法は, 上記の課題に自然に対処し, 2つのLCMの相補的能力を利用して, 相互に合理性を利用して補正を行う。 幅広い感情分析ベンチマーク(SST-2、Movie Review、Twitter、yelp、amazon、IMDB)の実験では、提案されたアプローチの有効性が示されている。

A standard paradigm for sentiment analysis is to rely on a singular LLM and makes the decision in a single round under the framework of in-context learning. This framework suffers the key disadvantage that the single-turn output generated by a single LLM might not deliver the perfect decision, just as humans sometimes need multiple attempts to get things right. This is especially true for the task of sentiment analysis where deep reasoning is required to address the complex linguistic phenomenon (e.g., clause composition, irony, etc) in the input. To address this issue, this paper introduces a multi-LLM negotiation framework for sentiment analysis. The framework consists of a reasoning-infused generator to provide decision along with rationale, a explanation-deriving discriminator to evaluate the credibility of the generator. The generator and the discriminator iterate until a consensus is reached. The proposed framework naturally addressed the aforementioned challenge, as we are able to take the complementary abilities of two LLMs, have them use rationale to persuade each other for correction. Experiments on a wide range of sentiment analysis benchmarks (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) demonstrate the effectiveness of proposed approach: it consistently yields better performances than the ICL baseline across all benchmarks, and even superior performances to supervised baselines on the Twitter and movie review datasets.
翻訳日:2023-11-06 14:07:11 公開日:2023-11-03
# 金融業界のサイバー脅威に対するweb3アプリケーションのためのスマート証明書のアーキテクチャ

Architecture of Smart Certificates for Web3 Applications Against Cyberthreats in Financial Industry ( http://arxiv.org/abs/2311.01956v1 )

ライセンス: Link先を確認
Stefan Kambiz Behfar, Jon Crowcroft(参考訳) 本稿では,ブロックチェーンや分散ストレージといった新興技術を中心に,現在のインターネット移行に伴うセキュリティ上の課題について述べる。 また、インターネットの未来形成におけるweb3アプリケーションの役割についても調査している。 主な目的は,プログラム的に実施可能なデジタル証明書である「スマート証明書」の新しい設計を提案することである。 このような証明書を利用することで、企業はサイバー攻撃から身を守り、データやシステムのセキュリティを確保することができる。 certik、forta、slither、securifyといった企業やプロジェクトによるweb3のセキュリティソリューションは、もともとweb1やweb2アプリケーション向けに開発されたコードスキャニングツールに相当するもので、企業がサイバー攻撃に対して安全だと感じるための証明書とは無関係です。 私たちは、web3アプリケーションの上に構築し、脆弱性分析と攻撃相関のための方法論を配置することで、企業のデジタルインフラストラクチャのレジリエンスを向上させることを目的としています。 さらに、証明書のセキュリティ、信頼性、分散管理を強化し、誤用、妥協、不正を検出するために認証透明性が使用される。

This study addresses the security challenges associated with the current internet transformations, specifically focusing on emerging technologies such as blockchain and decentralized storage. It also investigates the role of Web3 applications in shaping the future of the internet. The primary objective is to propose a novel design for 'smart certificates,' which are digital certificates that can be programmatically enforced. Utilizing such certificates, an enterprise can better protect itself from cyberattacks and ensure the security of its data and systems. Web3 recent security solutions by companies and projects like Certik, Forta, Slither, and Securify are the equivalent of code scanning tool that were originally developed for Web1 and Web2 applications, and definitely not like certificates to help enterprises feel safe against cyberthreats. We aim to improve the resilience of enterprises' digital infrastructure by building on top of Web3 application and put methodologies in place for vulnerability analysis and attack correlation, focusing on architecture of different layers, Wallet/Client, Application and Smart Contract, where specific components are provided to identify and predict threats and risks. Furthermore, Certificate Transparency is used for enhancing the security, trustworthiness and decentralized management of the certificates, and detecting misuses, compromises, and malfeasances.
翻訳日:2023-11-06 14:00:19 公開日:2023-11-03
# 情報過剰:ベイビーフィルムのトレーニングをシンプルに保つ

Too Much Information: Keeping Training Simple for BabyLMs ( http://arxiv.org/abs/2311.01955v1 )

ライセンス: Link先を確認
Lukas Edman and Lisa Bylinina(参考訳) 本稿では,Groningen University for the BabyLM Challengeについて詳述する。 私たちは、赤ちゃんのように、言語モデルをまず単純な概念に導入し、その知識を利用してより複雑な概念を理解するべきだという考えに従います。 本研究は,多種多様なレンズ,すなわちコンテキストサイズ,語彙,およびデータの全体的な言語的複雑さを通じて,単純テン複合のこの戦略を検討する。 言語モデルのトレーニングに本当に有益なのは,コンテキストサイズだけなのです。 しかし、この単純なコンテキストサイズの変更により、(Super)GLUEタスクでは平均2ポイント、MSGSタスクでは1ポイント、BLiMPタスクでは平均12パーセントの改善が得られます。 私たちのコンテキスト限定モデルは、10$\times$のデータ量でトレーニングされたベースラインよりも優れています。

This paper details the work of the University of Groningen for the BabyLM Challenge. We follow the idea that, like babies, language models should be introduced to simpler concepts first and build off of that knowledge to understand more complex concepts. We examine this strategy of simple-then-complex through a variety of lenses, namely context size, vocabulary, and overall linguistic complexity of the data. We find that only one, context size, is truly beneficial to training a language model. However this simple change to context size gives us improvements of 2 points on average on (Super)GLUE tasks, 1 point on MSGS tasks, and 12\% on average on BLiMP tasks. Our context-limited model outperforms the baseline that was trained on 10$\times$ the amount of data.
翻訳日:2023-11-06 13:59:56 公開日:2023-11-03
# 協調作業のための最適マルチエージェントポリシー勾配

Optimistic Multi-Agent Policy Gradient for Cooperative Tasks ( http://arxiv.org/abs/2311.01953v1 )

ライセンス: Link先を確認
Wenshuai Zhao, Yi Zhao, Zhiyuan Li, Juho Kannala, Joni Pajarinen(参考訳) \textit{Relative over generalization} (RO) は、エージェントが他のエージェントの最適動作に過度に適合するため、エージェントが最適でないジョイントポリシーに収束する際に、協調的なマルチエージェント学習タスクで発生する。 初期の研究では、表型Q-ラーニングを使用する場合のtextit{RO}問題を緩和する最適化が示されている。 しかし、関数近似の最適化は過大評価を増幅し、複雑なタスクで失敗する。 一方、最近のディープ・マルチエージェント・ポリシー・グラデーション(MAPG)法は多くの複雑なタスクに成功しているが、深刻な \textit{RO} で失敗する可能性がある。 我々は,MAPG手法の楽観的な更新を可能にし,RO問題を緩和する汎用的でシンプルなフレームワークを提案する。 具体的には、1つのハイパーパラメータが最適化の度合いを選択して、ポリシーを更新する際の利点を再生成する \textit{Leaky ReLU} 関数を用いる。 直感的には、学習中の他のエージェントの準最適行動によって引き起こされる可能性のある低いリターンを持つ個人の行動に対して楽観的である。 楽観主義は、個々のエージェントが局所的最適に素早く収束することを防ぐ。 また,提案するアドバンテージ変換を理解するために,演算子の視点から形式的解析を行う。 図式行列ゲーム、複雑な \textit{Multi-agent MuJoCo} や \textit{Overcooked} ベンチマークを含む様々なタスクセットに関する広範な評価において、提案されたメソッド\footnote{Code は \url{https://github.com/wenshuaizhao/optimappo} で見ることができる。 テストされた19のタスクのうち13のベースラインでパフォーマンスが向上し、残りのタスクのパフォーマンスにマッチする。

\textit{Relative overgeneralization} (RO) occurs in cooperative multi-agent learning tasks when agents converge towards a suboptimal joint policy due to overfitting to suboptimal behavior of other agents. In early work, optimism has been shown to mitigate the \textit{RO} problem when using tabular Q-learning. However, with function approximation optimism can amplify overestimation and thus fail on complex tasks. On the other hand, recent deep multi-agent policy gradient (MAPG) methods have succeeded in many complex tasks but may fail with severe \textit{RO}. We propose a general, yet simple, framework to enable optimistic updates in MAPG methods and alleviate the RO problem. Specifically, we employ a \textit{Leaky ReLU} function where a single hyperparameter selects the degree of optimism to reshape the advantages when updating the policy. Intuitively, our method remains optimistic toward individual actions with lower returns which are potentially caused by other agents' sub-optimal behavior during learning. The optimism prevents the individual agents from quickly converging to a local optimum. We also provide a formal analysis from an operator view to understand the proposed advantage transformation. In extensive evaluations on diverse sets of tasks, including illustrative matrix games, complex \textit{Multi-agent MuJoCo} and \textit{Overcooked} benchmarks, the proposed method\footnote{Code can be found at \url{https://github.com/wenshuaizhao/optimappo}.} outperforms strong baselines on 13 out of 19 tested tasks and matches the performance on the rest.
翻訳日:2023-11-06 13:59:43 公開日:2023-11-03
# 量子力学がいかに非加法的測度を必要とするか

How quantum mechanics requires non-additive measures ( http://arxiv.org/abs/2311.01951v1 )

ライセンス: Link先を確認
Gabriele Carcassi, Christine A. Aidala(参考訳) 測度理論は物理学において古典的な確率を捉えるだけでなく、状態の数を定量化するためにも用いられる。 以前の研究で、状態の定量化は古典力学において基礎的な役割を担っており、従って、我々はリウヴィル測度の量子同値を構築した。 古典的な測度とは異なり、この量子化測度は非加法的であり、ユニタリな下界を持つ(すなわち、状態の集合は1つ以下である)。 逆に、状態量子化は有限連続領域に対して有限であり、各状態が既に非随伴性(英語版)(non-additivity)を暗示している。 本稿では、これらの予備的な結果を示し、量子論の基礎について異なる洞察を与える可能性のある新しい調査の行を概説する。 さらに、この新しいアプローチは、独立した自由度を定量化するために量子化測度が必要であると我々は信じているので、時空の量子化理論に興味のある人には役立つかもしれない。

Measure theory is used in physics, not just to capture classical probability, but also to quantify the number of states. In previous works, we found that state quantification plays a foundational role in classical mechanics, and therefore, we set ourselves to construct the quantum equivalent of the Liouville measure. Unlike the classical counterpart, this quantized measure is non-additive and has a unitary lower bound (i.e. no set of states can have less than one state). Conversely, requiring that state quantification is finite for finite continuous regions and that each state counts as one already implies non-additivity, which in turn implies the failure of classical theory. In this article we show these preliminary results and outline a new line of inquiry that may provide a different insight into the foundations of quantum theory. Additionally, this new approach may prove to be useful to those interested in a quantized theory of space-time, as we believe this requires a quantized measure for the quantification of the independent degrees of freedom.
翻訳日:2023-11-06 13:59:04 公開日:2023-11-03
# Hint-enhanced In-Context Learningは知識集約型タスクのための大規模言語モデルを実現する

Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks ( http://arxiv.org/abs/2311.01949v1 )

ライセンス: Link先を確認
Yifan Wang, Qingyan Guo, Xinzhe Ni, Chufan Shi, Lemao Liu, Haiyun Jiang, Yujiu Yang(参考訳) インコンテキスト学習(ICL)の能力は、大規模言語モデル(LLM)の大規模化とともに出現し、デモから入力ラベルマッピングを学習し、下流タスクでうまく機能する。 しかし、標準のICL設定では、LLMは時にデモでクエリ関連の情報を無視し、誤った予測をもたらすことがある。 この制限に対処するために、知識集約型タスクにおいて重要な形態であるオープンドメイン質問応答において、ICLのパワーを探求するHint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。 HICL は LLM の推論能力を利用して、実演からクエリ関連の知識を抽出し、その知識を結合して LLM をより明確な方法で誘導する。 さらに,この知識の出所を追跡し,具体的な例を同定し,改良された実演の参考例を選択するためのヒント関連例検索器(her)を導入する。 我々は3つのオープンドメインQAベンチマークでHERを用いたHICLを評価し、標準設定と比較して、gpt-3.5-turboで平均2.89 EMスコアと2.52 F1スコア、LLaMA-2-Chat-7Bで7.62 EMスコアと7.27 F1スコアを観測した。

In-context learning (ICL) ability has emerged with the increasing scale of large language models (LLMs), enabling them to learn input-label mappings from demonstrations and perform well on downstream tasks. However, under the standard ICL setting, LLMs may sometimes neglect query-related information in demonstrations, leading to incorrect predictions. To address this limitation, we propose a new paradigm called Hint-enhanced In-Context Learning (HICL) to explore the power of ICL in open-domain question answering, an important form in knowledge-intensive tasks. HICL leverages LLMs' reasoning ability to extract query-related knowledge from demonstrations, then concatenates the knowledge to prompt LLMs in a more explicit way. Furthermore, we track the source of this knowledge to identify specific examples, and introduce a Hint-related Example Retriever (HER) to select informative examples for enhanced demonstrations. We evaluate HICL with HER on 3 open-domain QA benchmarks, and observe average performance gains of 2.89 EM score and 2.52 F1 score on gpt-3.5-turbo, 7.62 EM score and 7.27 F1 score on LLaMA-2-Chat-7B compared with standard setting.
翻訳日:2023-11-06 13:58:46 公開日:2023-11-03
# ヒルベルト空間におけるベル非局所性の量子資源理論

Quantum resource theory of Bell nonlocality in Hilbert space ( http://arxiv.org/abs/2311.01941v1 )

ライセンス: Link先を確認
Gennaro Zanfardino, Wojciech Roga, Masahiro Takeoka and Fabrizio Illuminati(参考訳) ヒルベルト空間に基づくベル非局所性の資源理論を導入し、検討中の量子状態の内在的性質にのみ依存する量子非局所性のボナ・フェイド測度を提供する。 我々は、局所的(あるいは自由な)状態の集合、すなわち、クレーター=ホルン=シモニー=ホルト不等式に違反しない状態、すなわち局所的操作と共有ランダム性を含む非局所性資源を作らない変換の集合、および局所的状態の集合に関して幾何学的距離または相対エントロピーに基づいて非局所性の適切な測度を定義することによって、理論を構築する。 ベル非局所性の有意義なキャラクタリゼーションと定量化に必要な基本的な公理的構造を議論し、2量子ビットヴェルナー状態、ベル対角状態、ベル対角状態といった量子状態の特定のクラスに適用して開発された一般資源理論を説明する。

We introduce a Hilbert space based resource theory of Bell nonlocality with the aim of providing bona fide measures of quantum nonlocality depending only on the intrinsic properties of the quantum states being considered. We construct our theory by defining the set of local (or free) states, i.e., the states that do not violate the Clauser-Horne-Shimony-Holt inequality; the set of free operations, i.e., the transformations that do not create the nonlocality resource, which includes local operations and shared randomness; and suitable measures of nonlocality based either on geometric distances or relative entropies with respect to the set of local states. We discuss the basic axiomatic structure that is needed for a meaningful characterization and quantification of Bell nonlocality and we illustrate the general resource theory so developed by applying it to specific classes of quantum states, including two-qubit Werner states, Bell-diagonal states, and Bell-diagonal states at fixed convexity.
翻訳日:2023-11-06 13:58:19 公開日:2023-11-03
# 完全自律ロボットシステムのための定量的自律性定量化枠組み

A Quantitative Autonomy Quantification Framework for Fully Autonomous Robotic Systems ( http://arxiv.org/abs/2311.01939v1 )

ライセンス: Link先を確認
Nasser Gyagenda (1) and Hubert Roth (1) ((1) University of Siegen)(参考訳) 自律的な機能化は、地球上の人間の監視が制限される領域におけるロボットシステムの展開を促進するが、タスク要求と自律能力の対応を見つけることは、まだオープンな課題である。 その結果、過去30年間に多くの自律性を定量化する手法が提案されてきたが、我々の知る限り、これらは全て自律性の変化のサブモードの特徴を識別していない。 本稿では,完全自律モードに着目し,タスク要求に基づく自律性評価フレームワークを提案する。 このフレームワークは,3つの自律性指標,すなわち要求能力,信頼性,応答性,および自律性を決定する機能,すなわち自律性レベルと自律性の度合いを導出するロボットタスク特性を確立することから始まる。 これらの特徴は、ロボットが究極的には人間の熟練労働者を置き換え、人間の仕事とロボットのタスク特性のマッピングを見つけることに基づいている。 レベルと自律性の程度の違いは、自律性は単に存在の問題であるだけでなく、必要な能力の能力の1つであるという認識から来ている。 継続的に監視すると、提案するメトリクスはシステムの完全性を監視する手段を提供する。 このフレームワークは2つのケーススタディ、すなわち、オンロードダイナミック運転タスクにおける自動運転車とDARPA subTチャレンジルール分析で実証されている。 このフレームワークは自律性を定量化するツールだけでなく、自律システム開発者やユーザのための規制インターフェースや共通言語も提供する。

Although autonomous functioning facilitates deployment of robotic systems in domains that admit limited human oversight on our planet and beyond, finding correspondence between task requirements and autonomous capability is still an open challenge. Consequently, a number of methods for quantifying autonomy have been proposed over the last three decades, but to our knowledge all these have no discernment of sub-mode features of variation of autonomy and some are based on metrics that violet the Goodhart's law. This paper focuses on the full autonomous mode and proposes a task-requirements based autonomy assessment framework. The framework starts by establishing robot task characteristics from which three autonomy metrics, namely requisite capability, reliability and responsiveness, and functions for determining autonomy as a two-part measure, namely of level of autonomy and degree of autonomy are derived. These characteristics are founded on the realization that robots ultimately replace human skilled workers, to find a mapping between human job and robot task characteristics. The distinction between level and degree of autonomy stemmed from the acknowledgment that autonomy is not just a question of existence, but also one of performance of requisite capability. When continuously monitored, the proposed metrics provide a means of monitoring the integrity of a system. The framework has been demonstrated on two case studies, namely autonomous vehicle at an on-road dynamic driving task and the DARPA subT challenge rules analysis. The framework provides not only a tool for quantifying autonomy, but also a regulatory interface and common language for autonomous systems developers and users.
翻訳日:2023-11-06 13:57:58 公開日:2023-11-03
# Supermind Ideator:創造的問題解決を支援する生成AIの探索

Supermind Ideator: Exploring generative AI to support creative problem-solving ( http://arxiv.org/abs/2311.01937v1 )

ライセンス: Link先を確認
Steven R. Rick, Gianni Giacomelli, Haoran Wen, Robert J. Laubacher, Nancy Taubenslag, Jennifer L. Heyman, Max Sina Knicker, Younes Jeddi, Hendrik Maier, Stephen Dwyer, Pranav Ragupathy, Thomas W. Malone(参考訳) 創造的な問題解決を支援する以前の取り組みには (a)創造的アイデアを刺激する技法(ブレインストーミングやデザイン思考など)、 (b)これらのアイデアを記録し共有するためのソフトウェアツール。 現在、ジェネレイティブai技術は、ユーザには起きなかった新しいアイデアを提案でき、ユーザーはこれらのアイデアの中から選択したり、さらに多くのアイデアを刺激するためにそれらを利用することができる。 本稿では,そのようなシステムであるSupermind Ideatorについて述べる。 このシステムは、大きな言語モデル(GPT 3.5)を使用し、プロンプト、微調整、クリエイティブな問題解決テクニックの使用を支援するために特別に設計されたユーザーインターフェースを追加している。 これらの技法のいくつかはあらゆる問題に適用できるが、人やコンピュータ(スーパーミンド)の群をどう設計するかという革新的なアイデアを生み出すことを目的としているものもある。 また、このシステムを使った初期の経験について述べ、他の特定の問題解決領域に対する追加のテクニックをサポートする方法を提案する。

Previous efforts to support creative problem-solving have included (a) techniques (such as brainstorming and design thinking) to stimulate creative ideas, and (b) software tools to record and share these ideas. Now, generative AI technologies can suggest new ideas that might never have occurred to the users, and users can then select from these ideas or use them to stimulate even more ideas. Here, we describe such a system, Supermind Ideator. The system uses a large language model (GPT 3.5) and adds prompting, fine tuning, and a user interface specifically designed to help people use creative problem-solving techniques. Some of these techniques can be applied to any problem; others are specifically intended to help generate innovative ideas about how to design groups of people and/or computers ("superminds"). We also describe our early experiences with using this system and suggest ways it could be extended to support additional techniques for other specific problem-solving domains.
翻訳日:2023-11-06 13:57:33 公開日:2023-11-03
# 難易度は問題でも? オープンエンド学習課題における難易度調整と実践行動の検討

Does Difficulty even Matter? Investigating Difficulty Adjustment and Practice Behavior in an Open-Ended Learning Task ( http://arxiv.org/abs/2311.01934v1 )

ライセンス: Link先を確認
Anan Sch\"utt, Tobias Huber, Jauwairia Nasir, Cristina Conati, Elisabeth Andr\'e(参考訳) 練習の難易度調整は学習に有用であることが示されている。 しかし、従来の研究では、学生が有効なソリューションに到達するための複数の方法を提供していない密接なタスクを主に調査してきた。 これとは対照的に、オープンエンドの学習タスクで学ぶためには、ソリューションに到達するための複数の方法があるため、学生はソリューション空間を効果的に探索する必要がある。 このため、難易度調整の効果は、開放されたタスクで異なる可能性がある。 そこで本研究では,86名を対象に行ったユーザ調査において,難易度調整の異なる方法を比較した。 さらに,学生の実践行動が学生の学習方法に影響を及ぼすことが期待されているため,その実践行動をポストホック分析として考察する。 そこで,第2のコントリビューションとして,学生の学習成果や主観的評価尺度との関連性や,難易度調整方法が実践行動に与える影響について検討する。 本研究は,適応的介入法と難易度調整法にのみ活用することに加え,実践行動を考慮に入れることの有用性を示唆する。

Difficulty adjustment in practice exercises has been shown to be beneficial for learning. However, previous research has mostly investigated close-ended tasks, which do not offer the students multiple ways to reach a valid solution. Contrary to this, in order to learn in an open-ended learning task, students need to effectively explore the solution space as there are multiple ways to reach a solution. For this reason, the effects of difficulty adjustment could be different for open-ended tasks. To investigate this, as our first contribution, we compare different methods of difficulty adjustment in a user study conducted with 86 participants. Furthermore, as the practice behavior of the students is expected to influence how well the students learn, we additionally look at their practice behavior as a post-hoc analysis. Therefore, as a second contribution, we identify different types of practice behavior and how they link to students' learning outcomes and subjective evaluation measures as well as explore the influence the difficulty adjustment methods have on the practice behaviors. Our results suggest the usefulness of taking into account the practice behavior in addition to only using the practice performance to inform adaptive intervention and difficulty adjustment methods.
翻訳日:2023-11-06 13:57:18 公開日:2023-11-03
# ForecastPFN: 合成学習ゼロショット予測

ForecastPFN: Synthetically-Trained Zero-Shot Forecasting ( http://arxiv.org/abs/2311.01933v1 )

ライセンス: Link先を確認
Samuel Dooley, Gurnoor Singh Khurana, Chirag Mohapatra, Siddartha Naidu, Colin White(参考訳) 時系列予測のアプローチの大部分は、かなりのトレーニングデータセットを必要とする。 しかし、現実の予測アプリケーションの多くは初期観測がほとんどなく、時には40以下である。 したがって、ほとんどの予測手法の適用性は、データスパースな商用アプリケーションに制限される。 ごく限られた初期データ(いわゆる「ゼロショット」予測)の設定には近年の作業があるが、事前トレーニングに使用されるデータによっては性能に一貫性がない。 本研究では、新しい合成データ分布に基づいて純粋に訓練された最初のゼロショット予測モデルであるForecastPFNを考案する。 ForecastPFNは、ベイズ推定を近似するために訓練された事前データ付きネットワークであり、単一の前方通過で新しい時系列データセットの予測を行うことができる。 実験により,ForecastPFNが作成したゼロショット予測は,従来の予測手法に比べて精度が高く,高速であることがわかった。

The vast majority of time-series forecasting approaches require a substantial training dataset. However, many real-life forecasting applications have very little initial observations, sometimes just 40 or fewer. Thus, the applicability of most forecasting methods is restricted in data-sparse commercial applications. While there is recent work in the setting of very limited initial data (so-called `zero-shot' forecasting), its performance is inconsistent depending on the data used for pretraining. In this work, we take a different approach and devise ForecastPFN, the first zero-shot forecasting model trained purely on a novel synthetic data distribution. ForecastPFN is a prior-data fitted network, trained to approximate Bayesian inference, which can make predictions on a new time series dataset in a single forward pass. Through extensive experiments, we show that zero-shot predictions made by ForecastPFN are more accurate and faster compared to state-of-the-art forecasting methods, even when the other methods are allowed to train on hundreds of additional in-distribution data points.
翻訳日:2023-11-06 13:57:00 公開日:2023-11-03
# ProS: プロトタイプに基づく自己蒸留による表情表現学習

ProS: Facial Omni-Representation Learning via Prototype-based Self-Distillation ( http://arxiv.org/abs/2311.01929v1 )

ライセンス: Link先を確認
Xing Di, Yiyu Zheng, Xiaoming Liu, Yu Cheng(参考訳) 本稿では,教師なし顔表現学習のためのPrototype-based Self-Distillation (ProS) という新しいアプローチを提案する。 既存の監視手法は、大量のアノテーション付きトレーニング顔データに大きく依存しており、データ収集とプライバシの懸念という面で課題を提起している。 これらの問題に対処するために,我々は,ラベルのない顔画像の膨大なコレクションを活用して,包括的な顔の全表現を学習するプロを提案する。 特にProSは、2つの視覚変換器(教師と生徒のモデル)で構成されており、異なる画像(クロップ、ぼやけ、着色など)で訓練されている。 さらに,顔領域を主眼とするキュレート画像を得るために,顔認識検索システムを構築した。 学習した特徴の識別を強化するために,特徴(教師や学生)と学習可能なプロトタイプとの類似度分布を整合させるプロトタイプベースのマッチング損失を導入する。 事前トレーニング後、教師ビジョントランスフォーマーは属性推定、表現認識、ランドマークアライメントなどの下流タスクのバックボーンとして機能し、追加のレイヤによる単純な微調整によって達成される。 広汎な実験により,本手法は多種多様なタスクにおいて,フルショットと少数ショットの両方で,最先端のパフォーマンスを実現する。 さらに,合成顔画像を用いた事前学習についても検討し,prosは有望な性能を示す。

This paper presents a novel approach, called Prototype-based Self-Distillation (ProS), for unsupervised face representation learning. The existing supervised methods heavily rely on a large amount of annotated training facial data, which poses challenges in terms of data collection and privacy concerns. To address these issues, we propose ProS, which leverages a vast collection of unlabeled face images to learn a comprehensive facial omni-representation. In particular, ProS consists of two vision-transformers (teacher and student models) that are trained with different augmented images (cropping, blurring, coloring, etc.). Besides, we build a face-aware retrieval system along with augmentations to obtain the curated images comprising predominantly facial areas. To enhance the discrimination of learned features, we introduce a prototype-based matching loss that aligns the similarity distributions between features (teacher or student) and a set of learnable prototypes. After pre-training, the teacher vision transformer serves as a backbone for downstream tasks, including attribute estimation, expression recognition, and landmark alignment, achieved through simple fine-tuning with additional layers. Extensive experiments demonstrate that our method achieves state-of-the-art performance on various tasks, both in full and few-shot settings. Furthermore, we investigate pre-training with synthetic face images, and ProS exhibits promising performance in this scenario as well.
翻訳日:2023-11-06 13:56:43 公開日:2023-11-03
# インタラクティブテキストベースゲームによる時間的動的知識グラフの構築

Constructing Temporal Dynamic Knowledge Graphs from Interactive Text-based Games ( http://arxiv.org/abs/2311.01928v1 )

ライセンス: Link先を確認
Keunwoo Peter Yu(参考訳) 自然言語処理では、インタラクティブなテキストベースのゲームがインタラクティブなAIシステムのテストベッドとして機能する。 従来の作業では、DGU(Disdisrete Graph Updater)によって構築された離散知識グラフに基づいて、自然言語記述からゲーム状態を表現することで、テキストベースのゲームをプレイすることを提案した。 DGUは高い解釈可能性を持つ有望な結果を示しているが、時間性の欠如と、同じラベルを持つオブジェクトを持つ複雑な環境に対する一般化性の制限により、知識グラフの精度が低下している。 本稿では,dguの弱点を高い解釈性を維持しつつ解決するために,動的知識グラフを時系列グラフイベント列として表現し,時間点に基づくグラフニューラルネットワークを用いてモデル化する,新たなニューラルネットワークモデルであるtemporal discrete graph updater (tdgu)を提案する。 テキストベースのゲームTextWorldから収集したデータセットの実験を通して、TDGUがベースラインDGUより優れていることを示す。 さらに,TDGUの性能に関する時間的情報の重要性を明らかにするとともに,TDGUが同一ラベルのオブジェクトを持つより複雑な環境に一般化できることを示す。 すべての関連コードは \url{https://github.com/yukw777/temporal-discrete-graph-updater} で見ることができる。

In natural language processing, interactive text-based games serve as a test bed for interactive AI systems. Prior work has proposed to play text-based games by acting based on discrete knowledge graphs constructed by the Discrete Graph Updater (DGU) to represent the game state from the natural language description. While DGU has shown promising results with high interpretability, it suffers from lower knowledge graph accuracy due to its lack of temporality and limited generalizability to complex environments with objects with the same label. In order to address DGU's weaknesses while preserving its high interpretability, we propose the Temporal Discrete Graph Updater (TDGU), a novel neural network model that represents dynamic knowledge graphs as a sequence of timestamped graph events and models them using a temporal point based graph neural network. Through experiments on the dataset collected from a text-based game TextWorld, we show that TDGU outperforms the baseline DGU. We further show the importance of temporal information for TDGU's performance through an ablation study and demonstrate that TDGU has the ability to generalize to more complex environments with objects with the same label. All the relevant code can be found at \url{https://github.com/yukw777/temporal-discrete-graph-updater}.
翻訳日:2023-11-06 13:56:18 公開日:2023-11-03
# gateloop: シーケンスモデリングのためのデータ制御リニアリカバリ

GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling ( http://arxiv.org/abs/2311.01927v1 )

ライセンス: Link先を確認
Tobias Katsch(参考訳) 線形反復は長いシーケンスを効率的にモデリングするための強力なツールであることが証明されている。 本研究では,既存のモデルがその潜在能力を十分に活用できないことを示す。 そこで我々は,データ制御状態遷移を用いて,S4,S5,LRU,RetNetなどの線形リカレントモデルを一般化した基本シーケンスモデルであるGateLoopを開発した。 この理論的な進歩を利用して、GateLoopは自動回帰言語モデリングの既存のモデルよりも経験的に優れている。 提案手法は,高度に最適化された連想スキャン実装を用いて,低コストな$O(l)$リカレントモードと効率的な$O(l \log_{2} l)$並列モードを備える。 さらに、Transformerや最近提案されたアーキテクチャに顕著な意味を持つ、$O(l^2)$サロゲートアテンションモードを導出する。 具体的には,本手法がデータ制御された相対配置情報を注意に提供できることを示す。 既存のモデルの多くは、文脈集約のためのデータ制御累積和のみに依存するが、データ制御された複雑な累積積積積積積積積積を組み込むことは、より強力なシーケンスモデルへの重要なステップであることが示唆される。

Linear Recurrence has proven to be a powerful tool for modeling long sequences efficiently. In this work, we show that existing models fail to take full advantage of its potential. Motivated by this finding, we develop GateLoop, a foundational sequence model that generalizes linear recurrent models such as S4, S5, LRU and RetNet, by employing data-controlled state transitions. Utilizing this theoretical advance, GateLoop empirically outperforms existing models for auto-regressive language modeling. Our method comes with a low-cost $O(l)$ recurrent mode and an efficient $O(l \log_{2} l)$ parallel mode making use of highly optimized associative scan implementations. Furthermore, we derive an $O(l^2)$ surrogate attention mode, revealing remarkable implications for Transformer and recently proposed architectures. Specifically, we prove that our approach can be interpreted as providing data-controlled relative-positional information to Attention. While many existing models solely rely on data-controlled cumulative sums for context aggregation, our findings suggest that incorporating data-controlled complex cumulative products may be a crucial step towards more powerful sequence models.
翻訳日:2023-11-06 13:55:55 公開日:2023-11-03
# 大規模言語モデルが人工医療アシスタントへの進歩的経路を照らす:レビュー

Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review ( http://arxiv.org/abs/2311.01918v1 )

ライセンス: Link先を確認
Mingze Yuan, Peng Bao, Jiajia Yuan, Yunhao Shen, Zifan Chen, Yi Xie, Jie Zhao, Yang Chen, Li Zhang, Lin Shen, Bin Dong(参考訳) 人工知能の急速な発展に伴い、大きな言語モデル(LLM)は人間のレベルの言語理解と推論を模倣する有望な能力を示している。 このことは、医学教育から臨床決定支援まで、医療の様々な側面を強化するためにLSMを適用することに大きな関心を呼んだ。 しかし、医療には多面的なデータモダリティとニュアンスド推論スキルが含まれており、LSMを統合する上での課題が提示されている。 本稿では医学におけるLSMの応用と意義について概説する。 まず、汎用的および専門的なLSMの基本的応用を検証し、知識検索、研究支援、臨床ワークフロー自動化、診断支援におけるそれらのユーティリティを実証することから始める。 医学の本質的なマルチモーダル性を認識したこのレビューでは、診断精度を高めるために、医療画像やHRなどの多様なデータタイプを処理する能力について検討した。 パーソナライズと複雑な臨床推論に関するLLMの限界に対処するため,LLMによる医療用自律エージェントの開発について検討した。 さらに,LLMの信頼性と安全性を医学的文脈で評価するための評価手法をまとめた。 概して、このレビューは現代の医学におけるllmの転換可能性に関する広範な分析を提供する。 また、これらのモデルが臨床に効果的に統合される前に、継続的な最適化と倫理的な監視の必要性を強調する。 最新の論文を含むGitHubリポジトリは、https://github.com/mingze-yuan/Awesome-LLM-Healthcareを参照してください。

With the rapid development of artificial intelligence, large language models (LLMs) have shown promising capabilities in mimicking human-level language comprehension and reasoning. This has sparked significant interest in applying LLMs to enhance various aspects of healthcare, ranging from medical education to clinical decision support. However, medicine involves multifaceted data modalities and nuanced reasoning skills, presenting challenges for integrating LLMs. This paper provides a comprehensive review on the applications and implications of LLMs in medicine. It begins by examining the fundamental applications of general-purpose and specialized LLMs, demonstrating their utilities in knowledge retrieval, research support, clinical workflow automation, and diagnostic assistance. Recognizing the inherent multimodality of medicine, the review then focuses on multimodal LLMs, investigating their ability to process diverse data types like medical imaging and EHRs to augment diagnostic accuracy. To address LLMs' limitations regarding personalization and complex clinical reasoning, the paper explores the emerging development of LLM-powered autonomous agents for healthcare. Furthermore, it summarizes the evaluation methodologies for assessing LLMs' reliability and safety in medical contexts. Overall, this review offers an extensive analysis on the transformative potential of LLMs in modern medicine. It also highlights the pivotal need for continuous optimizations and ethical oversight before these models can be effectively integrated into clinical practice. Visit https://github.com/mingze-yuan/Awesome-LLM-Healthcare for an accompanying GitHub repository containing latest papers.
翻訳日:2023-11-06 13:55:32 公開日:2023-11-03
# ランダムコヒーレント状態を用いた量子照明の模倣

Using random coherent states to mimic quantum illumination ( http://arxiv.org/abs/2311.02016v1 )

ライセンス: Link先を確認
Thomas Brougham, Nigam Samantaray and John Jeffers(参考訳) 量子照明は、背景雑音の存在下で物体の検出を強化するために量子相関を用いる。 この利点は、2つの相関モードの非最適直接測定を用いても存在することが示されている。 ここでは,量子照明の挙動を模倣するプロトコルを提案するが,相関モードや絡み合いモードは使用しない。 代わりに、プロトコルはランダムに選択された強度を持つコヒーレント(または位相ランダムコヒーレント)パルスを使用する。 強度は、平均状態が熱的に見えるような分布から引き出される。 適切な条件下では、模倣プロトコルは直接測定を行う量子照明スキームと同様に実行できる。 これは10^{-7}$という低い反射率でも成り立つ。 また、各プロトコルが最も機能するパラメータの集合を決定することができる解析条件を提案する。

Quantum illumination uses quantum correlations to enhance the detection of an object in the presence of background noise. This advantage has been shown to exist even if one uses non-optimal direct measurements on the two correlated modes. Here we present a protocol that mimics the behaviour of quantum illumination, but does not use correlated or entangled modes. Instead, the protocol uses coherent (or phase-randomized coherent) pulses with randomly chosen intensities. The intensities are drawn from a distribution such that the average state looks thermal. Under appropriate conditions, the mimic protocol can perform similarly to quantum illumination schemes that use direct measurements. This holds even for a reflectance as low as $10^{-7}$. We also present an analytic condition which allows one to determine the sets of parameters in which each protocol works best.
翻訳日:2023-11-06 13:48:57 公開日:2023-11-03
# R'enyi輪郭の分解による絡み合いの超微細構造の解明

Unraveling the Hyperfine Structure of Entanglement with the Decomposition of R\'enyi Contour ( http://arxiv.org/abs/2311.01997v1 )

ライセンス: Link先を確認
Liang-Hong Mo, Yao Zhou, Jia-Rui Sun, Peng Ye(参考訳) 絡み合い輪郭とr\'{e}nyi輪郭は、絡み合いエントロピーの実空間分布を反映し、絡み合いの微細構造となっている。 本研究では、R\'{e}nyi の輪郭を粒子数累積からの寄与に厳密に分解することで超微細構造を解く。 量子情報の概念として導入された超微細構造は、加法性、正規化、対称性、ユニタリ不変性といったいくつかの性質を持つ。 超微細構造の基礎となる物理を抽出するため, 質量ギャップ, 臨界点, フェルミ面を有する格子フェルミオンモデルを数値解析し, 高次粒子数累積からの寄与に異なる挙動が現れることを観察した。 また,非自明なトポロジーをもつ質量ギャップの場合のエキゾチックなスケーリング挙動を同定し,位相的エッジ状態の存在を示唆する。 共形場理論(CFT)では、R\'{e}nyiエントロピーと精製されたR\'{e}nyiエントロピーの両方の優越超微細構造を導出する。 ads$_3$/cft$_2$対応を用いることで、洗練されたr\'{e}nyi輪郭はバルク極端面をスライスすることでホログラフィック的に得られることが分かる。 極端面は、エントロピーのために対応する極端面のエンタングルメントウェッジの外側に伸びており、エンタングルメントウェッジ再構成において、サブリージョン-サブリージョン双対性の超微細構造を調べるためのエキゾチックなツールを提供する。 本稿では,今後の研究に向けた実験プロトコルと学際研究の方向性をまとめる。

Entanglement contour and R\'{e}nyi contour reflect the real-space distribution of entanglement entropy, serving as the fine structure of entanglement. In this work, we unravel the hyperfine structure by rigorously decomposing R\'{e}nyi contour into the contributions from particle-number cumulants. We show that the hyperfine structure, introduced as a quantum-information concept, has several properties, such as additivity, normalization, symmetry, and unitary invariance. To extract the underlying physics of the hyperfine structure, we numerically study lattice fermion models with mass gap, critical point, and Fermi surface, and observe that different behaviors appear in the contributions from higher-order particle-number cumulants. We also identify exotic scaling behaviors in the case of mass gap with nontrivial topology, signaling the existence of topological edge states. In conformal field theory (CFT), we derive the dominant hyperfine structure of both R\'{e}nyi entropy and refined R\'{e}nyi entropy. By employing the AdS$_3$/CFT$_2$ correspondence, we find that the refined R\'{e}nyi contour can be holographically obtained by slicing the bulk extremal surfaces. The extremal surfaces extend outside the entanglement wedge of the corresponding extremal surface for entanglement entropy, which provides an exotic tool to probe the hyperfine structure of the subregion-subregion duality in the entanglement wedge reconstruction. This paper is concluded with an experimental protocol and interdisciplinary research directions for future study.
翻訳日:2023-11-06 13:48:46 公開日:2023-11-03
# 深層学習による角膜疾患の検出

Detection of keratoconus Diseases using deep Learning ( http://arxiv.org/abs/2311.01996v1 )

ライセンス: Link先を確認
AKM Enzam-Ul Haque, Golam Rabbany, Md. Siam(参考訳) 最も重篤な角膜疾患の1つであるケラトコヌスは、早期診断が困難であり、盲目になる可能性がある。 この病気は、人生の2年目によく現れ、あらゆる性別や人種の人々に影響を与えます。 ディープラーニングのアプローチのひとつである畳み込みニューラルネットワーク(convolutional neural networks, cnns)は、最近、ケラトコヌスの正確かつタイムリーな診断のための有望なツールとして注目されるようになった。 本研究の目的は、異なるD-CNNモデルが角膜関連疾患をどのように同定するかを評価することである。 より正確には、CNNベースの5つの異なるディープラーニングアーキテクチャ(DenseNet201、InceptionV3、MobileNetV2、VGG19、Xception)を比較した。 包括的実験解析では,drknet201を用いたモデルがケラトコヌス病の同定に非常に有効であった。 このモデルは、Keratoconus、Normal、Suspectの3つの重要なクラスで89.14%の精度で、D-CNNの同等性能を上回った。 その結果, モデルの安定性と頑健性だけでなく, 実世界のケラトコヌス同定における実用的有用性が示された。 さらに、D-CNN DenseNet201は精度に加えて、精度、リコールレート、F1スコアの点で極めてよく動作する。 これらの測定は、ケラトコヌスのインスタンスを確実に検出し、偽陽性と陰性を減らす能力を強調し、効果的な診断ツールとしてのモデルの有用性を評価する。

One of the most serious corneal disorders, keratoconus is difficult to diagnose in its early stages and can result in blindness. This illness, which often appears in the second decade of life, affects people of all sexes and races. Convolutional neural networks (CNNs), one of the deep learning approaches, have recently come to light as particularly promising tools for the accurate and timely diagnosis of keratoconus. The purpose of this study was to evaluate how well different D-CNN models identified keratoconus-related diseases. To be more precise, we compared five different CNN-based deep learning architectures (DenseNet201, InceptionV3, MobileNetV2, VGG19, Xception). In our comprehensive experimental analysis, the DenseNet201-based model performed very well in keratoconus disease identification in our extensive experimental research. This model outperformed its D-CNN equivalents, with an astounding accuracy rate of 89.14% in three crucial classes: Keratoconus, Normal, and Suspect. The results demonstrate not only the stability and robustness of the model but also its practical usefulness in real-world applications for accurate and dependable keratoconus identification. In addition, D-CNN DenseNet201 performs extraordinarily well in terms of precision, recall rates, and F1 scores in addition to accuracy. These measures validate the model's usefulness as an effective diagnostic tool by highlighting its capacity to reliably detect instances of keratoconus and to reduce false positives and negatives.
翻訳日:2023-11-06 13:48:12 公開日:2023-11-03
# 分布ロバスト最適化を用いた説明可能な分類モデルの構築

Obtaining Explainable Classification Models using Distributionally Robust Optimization ( http://arxiv.org/abs/2311.01994v1 )

ライセンス: Link先を確認
Sanjeeb Dash, Soumyadip Ghosh, Joao Goncalves, Mark S. Squillante(参考訳) モデル説明責任は、提案された分類器がその特徴値に基づいてラベルをデータに割り当てる方法を理解するために重要である。 特徴値規則の集合を用いて構築された一般化線形モデルについて検討し、非線形依存や相互作用を捉える。 ルールセットの間隔と予測精度の間に固有のトレードオフが存在する。 It is computationally expensive to find the right choice of sparsity -- e.g., via cross-validation -- with existing methods. We propose a new formulation to learn an ensemble of rule sets that simultaneously addresses these competing factors. Good generalization is ensured while keeping computational costs low by utilizing distributionally robust optimization. The formulation utilizes column generation to efficiently search the space of rule sets and constructs a sparse ensemble of rule sets, in contrast with techniques like random forests or boosting and their variants. We present theoretical results that motivate and justify the use of our distributionally robust formulation. Extensive numerical experiments establish that our method improves over competing methods -- on a large set of publicly available binary classification problem instances -- with respect to one or more of the following metrics: generalization quality, computational cost, and explainability.

Model explainability is crucial for human users to be able to interpret how a proposed classifier assigns labels to data based on its feature values. We study generalized linear models constructed using sets of feature value rules, which can capture nonlinear dependencies and interactions. An inherent trade-off exists between rule set sparsity and its prediction accuracy. It is computationally expensive to find the right choice of sparsity -- e.g., via cross-validation -- with existing methods. We propose a new formulation to learn an ensemble of rule sets that simultaneously addresses these competing factors. Good generalization is ensured while keeping computational costs low by utilizing distributionally robust optimization. The formulation utilizes column generation to efficiently search the space of rule sets and constructs a sparse ensemble of rule sets, in contrast with techniques like random forests or boosting and their variants. We present theoretical results that motivate and justify the use of our distributionally robust formulation. Extensive numerical experiments establish that our method improves over competing methods -- on a large set of publicly available binary classification problem instances -- with respect to one or more of the following metrics: generalization quality, computational cost, and explainability.
翻訳日:2023-11-06 13:47:46 公開日:2023-11-03
# 最適政策の存在を保証する選好関係の条件

Conditions on Preference Relations that Guarantee the Existence of Optimal Policies ( http://arxiv.org/abs/2311.01990v1 )

ライセンス: Link先を確認
Jonathan Colaco Carr, Prakash Panangaden, Doina Precup(参考訳) LfPF(Learning from Preferential Feedback)は、大規模言語モデルやある種の対話型学習エージェントの訓練において重要な役割を担っている。 しかし、LfPFアルゴリズムの理論と応用の間にはかなりのギャップがある。 LfPF問題における最適ポリシーの存在を保証する現在の結果は、選好と遷移力学の両方がマルコフ決定プロセスによって決定されると仮定している。 我々は、部分的に観測可能な非マルコフ環境におけるLfPF問題を解析するための新しいフレームワークであるDirect Preference Processを紹介する。 この枠組みでは,選好の順序構造を考慮し,最適政策の存在を保証する条件を確立する。 von Neumann-Morgenstern expecteded Utility Theoremを用いて、直接選好プロセスが標準的な強化学習問題を一般化することを示す。 我々は,LfPFアルゴリズムの実証的成功と理論的理解のギャップを狭め,LfPFエージェントのより原理化された設計に必要なツールを将来の実践者に提供した。

Learning from Preferential Feedback (LfPF) plays an essential role in training Large Language Models, as well as certain types of interactive learning agents. However, a substantial gap exists between the theory and application of LfPF algorithms. Current results guaranteeing the existence of optimal policies in LfPF problems assume that both the preferences and transition dynamics are determined by a Markov Decision Process. We introduce the Direct Preference Process, a new framework for analyzing LfPF problems in partially-observable, non-Markovian environments. Within this framework, we establish conditions that guarantee the existence of optimal policies by considering the ordinal structure of the preferences. Using the von Neumann-Morgenstern Expected Utility Theorem, we show that the Direct Preference Process generalizes the standard reinforcement learning problem. Our findings narrow the gap between the empirical success and theoretical understanding of LfPF algorithms and provide future practitioners with the tools necessary for a more principled design of LfPF agents.
翻訳日:2023-11-06 13:47:31 公開日:2023-11-03
# ラベル効率のよい3Dポイントクラウドセグメンテーションのための大規模事前学習型ビジョンファウンデーションモデルの導入

Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation ( http://arxiv.org/abs/2311.01989v1 )

ライセンス: Link先を確認
Shichao Dong, Fayao Liu, Guosheng Lin(参考訳) 近年,Segment-Anything Model (SAM) やContrastive Language- Image Pre-Torning (CLIP) のような大規模事前学習モデルが顕著に成功し,コンピュータビジョンの分野に革命をもたらした。 これらの基礎的なビジョンモデルは、膨大なモデルパラメータで大規模な広義データから知識を効果的に取得し、追加のトレーニングをすることなく、これまで見えないデータに対してゼロショットセグメンテーションを実行することができる。 それらは2Dタスクの能力を示すが、3Dシーン理解の強化の可能性はいまだに未解明である。 この目的のために,我々は3dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。 我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。 次に、rgb-dビデオシーケンスの様々なフレームからマスク予測を3d空間に投影する。 頑健な3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせた意味ラベル融合戦略を導入する。 ゼロショット学習やスパース2Dポイントラベルからの限られたガイダンスなどの多様なシナリオを調査し、異なるビジョン基盤モデルの長所と短所を評価する。 本手法は,3次元屋内シーンを対象としたScanNetデータセットを用いて実験を行い,一般的な2次元ファンデーションモデルを用いた3次元ポイントクラウドセグメンテーションタスクの解法の有効性を実証した。

Recently, large-scale pre-trained models such as Segment-Anything Model (SAM) and Contrastive Language-Image Pre-training (CLIP) have demonstrated remarkable success and revolutionized the field of computer vision. These foundation vision models effectively capture knowledge from a large-scale broad data with their vast model parameters, enabling them to perform zero-shot segmentation on previously unseen data without additional training. While they showcase competence in 2D tasks, their potential for enhancing 3D scene understanding remains relatively unexplored. To this end, we present a novel framework that adapts various foundational models for the 3D point cloud segmentation task. Our approach involves making initial predictions of 2D semantic masks using different large vision models. We then project these mask predictions from various frames of RGB-D video sequences into 3D space. To generate robust 3D semantic pseudo labels, we introduce a semantic label fusion strategy that effectively combines all the results via voting. We examine diverse scenarios, like zero-shot learning and limited guidance from sparse 2D point labels, to assess the pros and cons of different vision foundation models. Our approach is experimented on ScanNet dataset for 3D indoor scenes, and the results demonstrate the effectiveness of adopting general 2D foundation models on solving 3D point cloud segmentation tasks.
翻訳日:2023-11-06 13:47:14 公開日:2023-11-03
# スパース辞書における最適画像転送

Optimal Image Transport on Sparse Dictionaries ( http://arxiv.org/abs/2311.01984v1 )

ライセンス: Link先を確認
Junqing Huang, Haihui Wang, Andreas Weiermann, Michael Ruzhansky(参考訳) 本稿では,Sparse Representation (SR) と Optimal Transport (OT) を利用して,スパース辞書上の新たな最適な画像伝達アルゴリズムを導出する。 簡潔に、個々の画像特徴(色、テクスチャ、スタイル等)をスパース表現を用いてコンパクトに符号化し、符号化過程に応じて2つの学習辞書間で最適な転送計画を推定する統一最適化フレームワークを設計する。 このパラダイムは、スパース符号化の適度な大きさと最適なトランスポートサブプロブレムのために経験的に解決可能な、画像表現と変換の単純かつ効果的な方法をもたらす。 画像色変換や芸術的スタイル変換など、画像間翻訳タスクの多目的性や多くの利点を実証し、写真リアルな変換効果に対する妥当な結果を示す。

In this paper, we derive a novel optimal image transport algorithm over sparse dictionaries by taking advantage of Sparse Representation (SR) and Optimal Transport (OT). Concisely, we design a unified optimization framework in which the individual image features (color, textures, styles, etc.) are encoded using sparse representation compactly, and an optimal transport plan is then inferred between two learned dictionaries in accordance with the encoding process. This paradigm gives rise to a simple but effective way for simultaneous image representation and transformation, which is also empirically solvable because of the moderate size of sparse coding and optimal transport sub-problems. We demonstrate its versatility and many benefits to different image-to-image translation tasks, in particular image color transform and artistic style transfer, and show the plausible results for photo-realistic transferred effects.
翻訳日:2023-11-06 13:46:49 公開日:2023-11-03
# ProSG:RNN型言語モデルのプロンプトフォーミングを軽減するためにプロンプト合成勾配を用いる

ProSG: Using Prompt Synthetic Gradients to Alleviate Prompt Forgetting of RNN-like Language Models ( http://arxiv.org/abs/2311.01981v1 )

ライセンス: Link先を確認
Haotian Luo, Kunming Wu, Cheng Dai, Sixian Ding, Xinhao Chen(参考訳) 近年、nlp研究者からは、rnnライクな言語モデルが再び注目を集めており、従来のトランスフォーマーに匹敵する性能を示すいくつかのモデルが大きな進歩を遂げている。 しかしながら、rnnの繰り返しの性質から、この種の言語モデルは、固定長状態ベクトルのセットにのみ情報を格納することができる。 結果として、多くの改善と最適化の後、複雑な命令やプロンプトが与えられた場合、彼らはまだ忘れ去られてしまう。 誘導生成がLMの主かつ最も重要な機能であるため、生成過程において忘れる問題を解くことが極めて重要であることは疑いない。 そこで本稿では, 生成時の記憶の促進に着目し, 合成勾配による生成時の記憶の促進をモデルに示すアーキテクチャを提案する。 モデルにプロンプトを記憶させるために、プロンプトをエンコードした状態を導出し、低ランク勾配近似を用いてモデルパラメータに変換し、プロンプトを一時的にモデルパラメータにハードコードする。 本研究では,実験用データセットを構築し,提案手法の有効性を実証した。 受け入れ次第、すべてのコードをリリースします。

RNN-like language models are getting renewed attention from NLP researchers in recent years and several models have made significant progress, which demonstrates performance comparable to traditional transformers. However, due to the recurrent nature of RNNs, this kind of language model can only store information in a set of fixed-length state vectors. As a consequence, they still suffer from forgetfulness though after a lot of improvements and optimizations, when given complex instructions or prompts. As the prompted generation is the main and most concerned function of LMs, solving the problem of forgetting in the process of generation is no wonder of vital importance. In this paper, focusing on easing the prompt forgetting during generation, we proposed an architecture to teach the model memorizing prompt during generation by synthetic gradient. To force the model to memorize the prompt, we derive the states that encode the prompt, then transform it into model parameter modification using low-rank gradient approximation, which hard-codes the prompt into model parameters temporarily. We construct a dataset for experiments, and the results have demonstrated the effectiveness of our method in solving the problem of forgetfulness in the process of prompted generation. We will release all the code upon acceptance.
翻訳日:2023-11-06 13:46:32 公開日:2023-11-03
# RT-Trajectory:Handsight Trajectory Sketchesによるロボットタスクの一般化

RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches ( http://arxiv.org/abs/2311.01977v1 )

ライセンス: Link先を確認
Jiayuan Gu, Sean Kirmani, Paul Wohlhart, Yao Lu, Montserrat Gonzalez Arenas, Kanishka Rao, Wenhao Yu, Chuyuan Fu, Keerthana Gopalakrishnan, Zhuo Xu, Priya Sundaresan, Peng Xu, Hao Su, Karol Hausman, Chelsea Finn, Quan Vuong, Ted Xiao(参考訳) 一般化は、堅牢なロボット学習システムにとって最も重要なデシダータの1つである。 最近提案されたアプローチは、新しい対象への一般化、意味概念、あるいは視覚分布のシフトを示すが、新しいタスクへの一般化は依然として難しい。 例えば、ピック・アンド・プレイス・タスクで訓練された言語条件付きポリシーは、たとえ折り畳みのアーム軌道がピック・アンド・プレイスに似ているとしても、折り畳みタスクに一般化できない。 我々の重要な洞察は、粗い軌道スケッチを通してタスクを表現すれば、この種の一般化が実現可能であるということである。 そこで本研究では,rt-trajectoryと呼ばれる粗軌跡スケッチを用いたポリシー条件付け手法を提案する。 その結果、軌道スケッチは、低レベルの動き中心のガイダンスを表現できるほど詳細であることと、学習したポリシーが状況観察の文脈で軌道スケッチを解釈できるほど粗いことのバランスをとることが判明した。 さらに、軌道スケッチがロボットのポリシーと通信するための有用なインターフェースを提供する方法を示す。図面やビデオのような単純な人間の入力や、最新の画像生成やwaypoint生成といった自動化手法によって特定することができる。 我々は,RT-Trajectoryを実世界の様々なロボットタスクで大規模に評価し,RT-Trajectoryが同じトレーニングデータを提供する場合,言語条件や目標条件のポリシーと比較して幅広いタスクを実行できることを発見した。

Generalization remains one of the most important desiderata for robust robot learning systems. While recently proposed approaches show promise in generalization to novel objects, semantic concepts, or visual distribution shifts, generalization to new tasks remains challenging. For example, a language-conditioned policy trained on pick-and-place tasks will not be able to generalize to a folding task, even if the arm trajectory of folding is similar to pick-and-place. Our key insight is that this kind of generalization becomes feasible if we represent the task through rough trajectory sketches. We propose a policy conditioning method using such rough trajectory sketches, which we call RT-Trajectory, that is practical, easy to specify, and allows the policy to effectively perform new tasks that would otherwise be challenging to perform. We find that trajectory sketches strike a balance between being detailed enough to express low-level motion-centric guidance while being coarse enough to allow the learned policy to interpret the trajectory sketch in the context of situational visual observations. In addition, we show how trajectory sketches can provide a useful interface to communicate with robotic policies: they can be specified through simple human inputs like drawings or videos, or through automated methods such as modern image-generating or waypoint-generating methods. We evaluate RT-Trajectory at scale on a variety of real-world robotic tasks, and find that RT-Trajectory is able to perform a wider range of tasks compared to language-conditioned and goal-conditioned policies, when provided the same training data.
翻訳日:2023-11-06 13:46:11 公開日:2023-11-03
# 条件付き貯留層ファシー生成のための潜在拡散モデル

Latent Diffusion Model for Conditional Reservoir Facies Generation ( http://arxiv.org/abs/2311.01968v1 )

ライセンス: Link先を確認
Daesoo Lee, Oscar Ovanger, Jo Eidsvik, Erlend Aune, Jacob Skauvold and Ragnar Hauge(参考訳) 限られた測定値に基づいて正確な地質学的に現実的な貯水池のファシーを作ることは、特に石油とガスの分野において、フィールド開発と貯水池管理に不可欠である。 伝統的な2点地球統計学は基礎的だが、複雑な地質パターンを捉えるのに苦労することが多い。 マルチポイント統計は柔軟性を提供するが、独自の課題がある。 GAN(Generative Adversarial Networks)の台頭と、その様々な分野での成功により、ファシズム世代への利用がシフトしてきた。 しかし、近年のコンピュータビジョン領域の進歩は、GANよりも拡散モデルの優位性を示している。 このことから,貯水池環境の条件生成に特化して設計された新しい潜在拡散モデルが提案されている。 提案モデルは条件付きデータを厳格に保存する高忠実度ファシリゼーションを実現する。 GANベースの代替案よりもはるかに優れています。

Creating accurate and geologically realistic reservoir facies based on limited measurements is crucial for field development and reservoir management, especially in the oil and gas sector. Traditional two-point geostatistics, while foundational, often struggle to capture complex geological patterns. Multi-point statistics offers more flexibility, but comes with its own challenges. With the rise of Generative Adversarial Networks (GANs) and their success in various fields, there has been a shift towards using them for facies generation. However, recent advances in the computer vision domain have shown the superiority of diffusion models over GANs. Motivated by this, a novel Latent Diffusion Model is proposed, which is specifically designed for conditional generation of reservoir facies. The proposed model produces high-fidelity facies realizations that rigorously preserve conditioning data. It significantly outperforms a GAN-based alternative.
翻訳日:2023-11-06 13:45:42 公開日:2023-11-03
# プロンプトの言語: どんな言語特性が早急に成功するのか?

The language of prompting: What linguistic properties make a prompt successful? ( http://arxiv.org/abs/2311.01967v1 )

ライセンス: Link先を確認
Alina Leidinger, Robert van Rooij, Ekaterina Shutova(参考訳) 最新のLLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。 しかし、性能はプロンプトの選択に非常に敏感であるため、迅速な最適化のためのクラウドソーシングプロンプトや設計手法に多大な努力が注がれている。 しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように相関するかについては、まだ体系的な理解が欠けている。 本研究では,異なる大きさのLLMが意味論的に等価だが言語構造によって異なるプロンプトでどのように機能するかを検討する。 モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。 本研究は,LLMが低難易度における最適性能を達成するという一般的な仮定と矛盾し,事前学習や指導訓練における言語使用を反映する。 プロンプトはデータセットやモデル間ではあまり転送されず、パフォーマンスは一般にパープレキシティ、単語の頻度、あいまいさ、プロンプトの長さで説明できない。 本研究の結果をもとに,より堅牢で包括的な評価基準の提案を行った。

The latest generation of LLMs can be prompted to achieve impressive zero-shot or few-shot performance in many NLP tasks. However, since performance is highly sensitive to the choice of prompts, considerable effort has been devoted to crowd-sourcing prompts or designing methods for prompt optimisation. Yet, we still lack a systematic understanding of how linguistic properties of prompts correlate with task performance. In this work, we investigate how LLMs of different sizes, pre-trained and instruction-tuned, perform on prompts that are semantically equivalent, but vary in linguistic structure. We investigate both grammatical properties such as mood, tense, aspect and modality, as well as lexico-semantic variation through the use of synonyms. Our findings contradict the common assumption that LLMs achieve optimal performance on lower perplexity prompts that reflect language use in pretraining or instruction-tuning data. Prompts transfer poorly between datasets or models, and performance cannot generally be explained by perplexity, word frequency, ambiguity or prompt length. Based on our results, we put forward a proposal for a more robust and comprehensive evaluation standard for prompting research.
翻訳日:2023-11-06 13:45:29 公開日:2023-11-03
# 移動ロボットの奥行き誘導自由空間分割

Depth-guided Free-space Segmentation for a Mobile Robot ( http://arxiv.org/abs/2311.01966v1 )

ライセンス: Link先を確認
Christos Sevastopoulos, Joey Hussain, Stasinos Konstantopoulos, Vangelis Karkaletsis, Fillia Makedon(参考訳) 正確な屋内自由空間セグメンテーションは、屋内環境が示す複雑さと動的性質のために難しい課題である。 本研究では,大深度値と航行可能な領域を関連付ける自由空間分割法を提案する。 本手法は,正のインスタンスを用いてテクスチャの均質性と深さの均一性に基づいてセグメンテーションラベルを生成する教師なしマスキング手法を利用する。 さらに,より深度の高い領域に対応するスーパーピクセルを生成し,Dense Prediction Transformer (DPT) から抽出した特徴と整列する。 推定自由空間マスクとDPT特徴表現を用いて、SegFormerモデルは、カスタマイズされた屋内データセットに基づいて微調整される。 本実験は, 乱雑な障害物や自由空間の同定に苦慮した複雑なシナリオにおいて, 十分な性能を示すものである。

Accurate indoor free-space segmentation is a challenging task due to the complexity and the dynamic nature that indoor environments exhibit. We propose an indoors free-space segmentation method that associates large depth values with navigable regions. Our method leverages an unsupervised masking technique that, using positive instances, generates segmentation labels based on textural homogeneity and depth uniformity. Moreover, we generate superpixels corresponding to areas of higher depth and align them with features extracted from a Dense Prediction Transformer (DPT). Using the estimated free-space masks and the DPT feature representation, a SegFormer model is fine-tuned on our custom-collected indoor dataset. Our experiments demonstrate sufficient performance in intricate scenarios characterized by cluttered obstacles and challenging identification of free space.
翻訳日:2023-11-06 13:44:57 公開日:2023-11-03
# LLMを評価ベンチマークチータにするな

Don't Make Your LLM an Evaluation Benchmark Cheater ( http://arxiv.org/abs/2311.01964v1 )

ライセンス: Link先を確認
Kun Zhou, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen, Jiawei Han(参考訳) 大きな言語モデル~(llm)は、人工知能のフロンティアを大きく進歩させ、モデルの能力を大幅に向上させた。 モデル性能を評価するための典型的な手法は,LLMの能力レベルを異なる側面で測定するための評価ベンチマークを構築することである。 多くの高品質なベンチマークがリリースされているにもかかわらず、これらのベンチマークの適切な使用と異なるモデルの公正な比較に関する懸念はますます高まっている。 そこで,本研究では,評価ベンチマークを不適切に使用することによる潜在的なリスクと影響について考察し,評価結果を誤解して解釈する。 特に,評価セットに関連するデータがモデルトレーニングに時折使用されることに言及し,不適切な評価に繋がる特殊問題である \ie \emph{benchmark leak} に注目する。 この現象は、事前トレーニングデータがしばしばモデルテストの前に準備されるため、より一般的になる。 ベンチマークレバレッジの効果を研究するために広範な実験を行い、評価結果が劇的に向上し、最終的にモデル性能の信頼性が低下する可能性があることを突き止めた。 既存の評価ベンチマークの使用を改善するため、LLM開発者とベンチマークメンテナの両方にいくつかのガイドラインを提示する。 この研究がLLMの適切なトレーニングと評価に注目を集めることを願っている。

Large language models~(LLMs) have greatly advanced the frontiers of artificial intelligence, attaining remarkable improvement in model capacity. To assess the model performance, a typical approach is to construct evaluation benchmarks for measuring the ability level of LLMs in different aspects. Despite that a number of high-quality benchmarks have been released, the concerns about the appropriate use of these benchmarks and the fair comparison of different models are increasingly growing. Considering these concerns, in this paper, we discuss the potential risk and impact of inappropriately using evaluation benchmarks and misleadingly interpreting the evaluation results. Specially, we focus on a special issue that would lead to inappropriate evaluation, \ie \emph{benchmark leakage}, referring that the data related to evaluation sets is occasionally used for model training. This phenomenon now becomes more common since pre-training data is often prepared ahead of model test. We conduct extensive experiments to study the effect of benchmark leverage, and find that it can dramatically boost the evaluation results, which would finally lead to an unreliable assessment of model performance. To improve the use of existing evaluation benchmarks, we finally present several guidelines for both LLM developers and benchmark maintainers. We hope this work can draw attention to appropriate training and evaluation of LLMs.
翻訳日:2023-11-06 13:44:34 公開日:2023-11-03
# XAIポストホック手法の忠実度評価:地上の真理説明データセットとの比較検討

Assessing Fidelity in XAI post-hoc techniques: A Comparative Study with Ground Truth Explanations Datasets ( http://arxiv.org/abs/2311.01961v1 )

ライセンス: Link先を確認
M. Mir\'o-Nicolau, A. Jaume-i-Cap\'o, G. Moy\`a-Alcover(参考訳) eXplainable Artificial Intelligence(XAI)手法を基礎となるモデルに忠実さを評価することは、主に説明のための基礎的な真実がないため、難しい課題である。 しかし、正しいXAI手法を確保するためには、忠実さを評価する必要がある。 本研究では,最新のxai手法を公平かつ客観的に比較し,信頼性の高い基底真理を持つ3つの新しい画像データセットを提案する。 本研究の主な目的は, 信頼性の低い手法を同定し, さらなる研究から排除し, より信頼性が高く効果的なXAI技術の開発を促進することである。 その結果,出力情報のバックプロパゲーションに基づくXAI手法は,感度解析やクラスアクティベーションマップ(CAM)に依存する手法に比べて精度と信頼性が高いことがわかった。 しかし、バックプロパゲーション法はよりノイズの多いサリエンシマップを生成する傾向にある。 これらの知見は, XAI手法の進歩, 誤った説明の排除, より堅牢で信頼性の高い XAI の開発を促進することにつながる。

The evaluation of the fidelity of eXplainable Artificial Intelligence (XAI) methods to their underlying models is a challenging task, primarily due to the absence of a ground truth for explanations. However, assessing fidelity is a necessary step for ensuring a correct XAI methodology. In this study, we conduct a fair and objective comparison of the current state-of-the-art XAI methods by introducing three novel image datasets with reliable ground truth for explanations. The primary objective of this comparison is to identify methods with low fidelity and eliminate them from further research, thereby promoting the development of more trustworthy and effective XAI techniques. Our results demonstrate that XAI methods based on the backpropagation of output information to input yield higher accuracy and reliability compared to methods relying on sensitivity analysis or Class Activation Maps (CAM). However, the backpropagation method tends to generate more noisy saliency maps. These findings have significant implications for the advancement of XAI methods, enabling the elimination of erroneous explanations and fostering the development of more robust and reliable XAI.
翻訳日:2023-11-06 13:44:03 公開日:2023-11-03
# 高度変換マトリックス製品の低ランク近似の硬さ

Hardness of Low Rank Approximation of Entrywise Transformed Matrix Products ( http://arxiv.org/abs/2311.01960v1 )

ライセンス: Link先を確認
Tamas Sarlos, Xingyou Song, David Woodruff, Qiuyi (Richard) Zhang(参考訳) 自然言語処理における高速なアルゴリズムに触発されて、エントリワイズ変換された設定において、低ランク近似(英語版)(low rank approximation)を研究し、良いランクの$k$近似を$f(u \cdot v)$、ここで$u, v^\top \in \mathbb{r}^{n \times r}$、$r = o(\log(n))$、$f(x)$は一般的なスカラー関数である。 線形下階近似における以前の研究は、(1)$U = V^\top$と(2)$f(x)$の両方がPSDカーネル関数であれば、$O(nk^{\omega-1})$時間定数相対誤差近似アルゴリズムが存在し、$\omega \approx 2.376$は行列乗算の指数であることを示した。 この問題に対して最初の条件付き時間硬度結果を与え、(1) と (2) の両方の条件が、より広い種類の関数に対する相対誤差低階近似の時間に対して、実際に$n^{2-o(1)} よりも優れていることを示す。 我々は、平坦なスパースベクトルのレバレッジスコアの低界化に依存するStrong Exponential Time hypothesis (SETH) から、変換行列 $f(UV)$ のランクとターゲットランクが $n^{o(1)}$ であり、$U = V^\top$ のランクであっても保持する新しい還元法を提案する。 さらに、$f(x) = x^p$ が単純多項式である場合でも、$U \neq V^\top$ が $\Omega(\min(n^{2-o(1)}, \Omega(2^p)))$ であるような場合、実行時下界を与える。 最後に、我々の下限は、$O(n \cdot \text{poly}(k, 2^p, 1/\epsilon))$時間相対誤差近似アルゴリズムと高速な$O(n \cdot \text{poly}(k, p, 1/\epsilon))$加法誤差近似を高速テンソルベーススケッチを用いて与えることによって、厳密であることを示した。 さらに、我々の低階アルゴリズムは行列ベクトル積のサブルーチンに依存しているため、我々の下限は、小さな行列でさえも$f(UV)W$は$\Omega(n^{2-o(1)})$時間であることを示すために拡張される。

Inspired by fast algorithms in natural language processing, we study low rank approximation in the entrywise transformed setting where we want to find a good rank $k$ approximation to $f(U \cdot V)$, where $U, V^\top \in \mathbb{R}^{n \times r}$ are given, $r = O(\log(n))$, and $f(x)$ is a general scalar function. Previous work in sublinear low rank approximation has shown that if both (1) $U = V^\top$ and (2) $f(x)$ is a PSD kernel function, then there is an $O(nk^{\omega-1})$ time constant relative error approximation algorithm, where $\omega \approx 2.376$ is the exponent of matrix multiplication. We give the first conditional time hardness results for this problem, demonstrating that both conditions (1) and (2) are in fact necessary for getting better than $n^{2-o(1)}$ time for a relative error low rank approximation for a wide class of functions. We give novel reductions from the Strong Exponential Time Hypothesis (SETH) that rely on lower bounding the leverage scores of flat sparse vectors and hold even when the rank of the transformed matrix $f(UV)$ and the target rank are $n^{o(1)}$, and when $U = V^\top$. Furthermore, even when $f(x) = x^p$ is a simple polynomial, we give runtime lower bounds in the case when $U \neq V^\top$ of the form $\Omega(\min(n^{2-o(1)}, \Omega(2^p)))$. Lastly, we demonstrate that our lower bounds are tight by giving an $O(n \cdot \text{poly}(k, 2^p, 1/\epsilon))$ time relative error approximation algorithm and a fast $O(n \cdot \text{poly}(k, p, 1/\epsilon))$ additive error approximation using fast tensor-based sketching. Additionally, since our low rank algorithms rely on matrix-vector product subroutines, our lower bounds extend to show that computing $f(UV)W$, for even a small matrix $W$, requires $\Omega(n^{2-o(1)})$ time.
翻訳日:2023-11-06 13:43:19 公開日:2023-11-03
# APRICOT:Intensive Care Unit (ICU)におけるAcuity Prediction: Predicting stability, transitions, and Life-Sustaining therapy

APRICOT: Acuity Prediction in Intensive Care Unit (ICU): Predicting Stability, Transitions, and Life-Sustaining Therapies ( http://arxiv.org/abs/2311.02026v1 )

ライセンス: Link先を確認
Miguel Contreras, Brandon Silva, Benjamin Shickel, Tezcan Ozrazgat Baslanti, Yuanfang Ren, Ziyuan Guan, Sabyasachi Bandyopadhyay, Kia Khezeli, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室(ICU)の患者の体力状態は、安定状態から不安定状態へと急速に変化し、時として命の危険をもたらすことがある。 早期の劣化状態の検出は、よりタイムリーな介入と生存率の向上をもたらす可能性がある。 現在のアプローチは、手動による日々の評価に依存している。 icuのacuityの代理として死亡率を使用するデータ駆動アプローチがいくつか開発されている。 しかし、これらの方法は、患者の安定性や生命維持療法の必要性を決定するために、明度状態を統合するものではない。 そこで本研究では,icu患者においてリアルタイムに apricot (acuity prediction in intensive care unit) を予測できるトランスフォーマーニューラルネットワークである apricot (acuity prediction in intensive care unit) を提案する。 フロリダ大学健康研究所(UFH)、eICU共同研究データベース(eICU)、MIMIC-IV(MIMIC)の3つの大規模データセット上で,外部,時間的,そして将来的なAPRICOTモデルの開発と検証を行った。 APRICOTの性能は、最先端の死亡予測モデル(AUROC 0.93-0.93、時間的AUROC 0.96-0.98、時間的AUROC 0.98)と、明度予測モデル(AUROC 0.80-0.81、時間的AUROC 0.77-0.78、時間的AUROC 0.87)に匹敵する結果を示す。 さらに、APRICOTは生命維持療法の必要性を予測し、最先端の換気予測モデル(AUROC 0.80-0.81, temporal AUROC 0.87-0.88, prospective AUROC 0.85)や血管圧予測モデル(external AUROC 0.82-0.83, temporal AUROC 0.73-0.75, prospective AUROC 0.87)に匹敵する結果を示す。 このツールは、患者のリアルタイム視力モニタリングを可能にし、臨床医にタイムリーな介入を行うための有用な情報を提供する。 さらに、モデルでは、icuの次の数時間で患者が必要とする生命維持療法が示唆される。

The acuity state of patients in the intensive care unit (ICU) can quickly change from stable to unstable, sometimes leading to life-threatening conditions. Early detection of deteriorating conditions can result in providing more timely interventions and improved survival rates. Current approaches rely on manual daily assessments. Some data-driven approaches have been developed, that use mortality as a proxy of acuity in the ICU. However, these methods do not integrate acuity states to determine the stability of a patient or the need for life-sustaining therapies. In this study, we propose APRICOT (Acuity Prediction in Intensive Care Unit), a Transformer-based neural network to predict acuity state in real-time in ICU patients. We develop and extensively validate externally, temporally, and prospectively the APRICOT model on three large datasets: University of Florida Health (UFH), eICU Collaborative Research Database (eICU), and Medical Information Mart for Intensive Care (MIMIC)-IV. The performance of APRICOT shows comparable results to state-of-the-art mortality prediction models (external AUROC 0.93-0.93, temporal AUROC 0.96-0.98, and prospective AUROC 0.98) as well as acuity prediction models (external AUROC 0.80-0.81, temporal AUROC 0.77-0.78, and prospective AUROC 0.87). Furthermore, APRICOT can make predictions for the need for life-sustaining therapies, showing comparable results to state-of-the-art ventilation prediction models (external AUROC 0.80-0.81, temporal AUROC 0.87-0.88, and prospective AUROC 0.85), and vasopressor prediction models (external AUROC 0.82-0.83, temporal AUROC 0.73-0.75, prospective AUROC 0.87). This tool allows for real-time acuity monitoring of a patient and can provide helpful information to clinicians to make timely interventions. Furthermore, the model can suggest life-sustaining therapies that the patient might need in the next hours in the ICU.
翻訳日:2023-11-06 13:34:41 公開日:2023-11-03
# 乱用言語検出における数発言語間伝達のビクチンリスク最小化

Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive Language Detection ( http://arxiv.org/abs/2311.02025v1 )

ライセンス: Link先を確認
Gretel Liz De la Pe\~na Sarrac\'en, Paolo Rosso, Robert Litschko, Goran Glava\v{s}, Simone Paolo Ponzetto(参考訳) 高リソースから中低リソース言語への言語間変換学習は、励みやすい結果を示している。 しかし、ターゲット言語におけるリソース不足は依然として課題である。 本研究では,言語間乱用言語検出を改善するために,ドメイン適応のためのデータ拡張と継続事前学習を利用する。 データ拡張のために,ビジナルリスク最小化に基づく2つの既存手法を解析し,その表現の角度に基づいてインスタンスのペアを補間する新しいデータ拡張手法MIXAGを提案する。 我々の実験は、英語と3つの異なるドメインとはタイプ学的に異なる7つの言語を含む。 以上の結果から,データ拡張戦略は,少数発話の言語間乱用言語検出を向上できることが判明した。 具体的には、全ての対象言語において、MIXAGはマルチドメインおよび多言語環境で大幅に改善されていることを観察する。 最後に、ドメイン適応が乱用テキストのクラス(偽陰性を減少させる)をいかに好むかをエラー解析により示すとともに、乱用言語検出モデルの精度を低下させることを示した。

Cross-lingual transfer learning from high-resource to medium and low-resource languages has shown encouraging results. However, the scarcity of resources in target languages remains a challenge. In this work, we resort to data augmentation and continual pre-training for domain adaptation to improve cross-lingual abusive language detection. For data augmentation, we analyze two existing techniques based on vicinal risk minimization and propose MIXAG, a novel data augmentation method which interpolates pairs of instances based on the angle of their representations. Our experiments involve seven languages typologically distinct from English and three different domains. The results reveal that the data augmentation strategies can enhance few-shot cross-lingual abusive language detection. Specifically, we observe that consistently in all target languages, MIXAG improves significantly in multidomain and multilingual environments. Finally, we show through an error analysis how the domain adaptation can favour the class of abusive texts (reducing false negatives), but at the same time, declines the precision of the abusive language detection model.
翻訳日:2023-11-06 13:33:55 公開日:2023-11-03
# 紫非硫黄細菌光ハーベスティング複合体の吸収スペクトル:B800部分のDFTによる研究

Absorption spectra of the purple nonsulfur bacteria light-harvesting complex: a DFT study of the B800 part ( http://arxiv.org/abs/2311.02024v1 )

ライセンス: Link先を確認
L.V. Begunovich, E.A. Kovaleva, M.M. Korshunov, V.F. Shabanov(参考訳) 我々は密度汎関数理論(DFT)に基づく数種類の量子化学的手法を用いて、Rhodoblastus acidophilus light-harvesting complex (LH2)のB800部分を研究し、LH2のさらなる研究に適した具体的な方法と最小限の信頼性モデルを決定する。 バクテリオクロロフィルa分子に加えて、最小モデルは2つの$\alpha$と1つの$\beta$チェーンアミノ酸を含む。 モデル内では、9つのバクテリオクロロフィルa分子のb800環が近赤外の$q_y$吸収帯に寄与していることを再現することができる。 また, 高精度エネルギー・光推定におけるハイブリッドDFT計算と大規模計算におけるDFTB法についても検討した。 B800ピーク位置の正確な記述におけるハーツリー・フォック交換相互作用の重要性が示された。

We've studied the B800 part of Rhodoblastus acidophilus light-harvesting complex (LH2) by several quantum chemical techniques based on the density functional theory (DFT) and determined the specific method and a minimal reliable model suitable for further studies of the LH2. In addition to bacteriochlorophyll a molecules, the minimal model includes two $\alpha$ and one $\beta$ chain amino acids. Within the model, we are able to reproduce the contribution of the B800 ring of nine bacteriochlorophyll a molecules to the near infrared $Q_y$ absorption band. We also discuss the use of hybrid DFT calculations for precise energy and optical estimations and DFT-based tight binding (DFTB) method for the large-scale calculations. Crucial importance of Hartree-Fock exchange interaction for the correct description of B800 peak position was shown.
翻訳日:2023-11-06 13:33:39 公開日:2023-11-03
# フォトニックネットワークにおける光合成エネルギー輸送のシミュレーション

Simulating Photosynthetic Energy Transport on a Photonic Network ( http://arxiv.org/abs/2311.02020v1 )

ライセンス: Link先を確認
Hao Tang, Xiao-Wen Shang, Zi-Yu Shi, Tian-Shen He, Zhen Feng, Tian-Yu Wang, Ruoxi Shi, Hui-Ming Wang, Xi Tan, Xiao-Yun Xu, Yao Wang, Jun Gao, M. S. Kim, Xian-Min Jin(参考訳) 自然界における光合成エネルギー輸送における量子効果、特にFMO(Fenna-Matthews-Olson)錯体は量子生物学において広く研究されている。 このようなエネルギー輸送過程は、量子コヒーレンスと環境ノイズを混合するオープン量子系として研究され、いくつかの量子デバイスで実験的にシミュレートされた。 しかし、既存の実験では、生物学的意味の豊富な実FMO錯体の様々な問題をマッピングする制約のため、FMOエネルギー輸送のための固体量子シミュレーションが常に欠如している。 ここでは, 三次元導波路アレイのエバネッセントカップリングの包括的特性と精密制御により, 7サイトFMO構造のフルカップリングプロファイルのマッピングに成功した。 各導波路に確率的動的変調を適用することで、色雑音におけるベースサイトエネルギーと強調項を導入し、fmo錯体のパワースペクトル密度を忠実にシミュレートする。 フォトニックモデルは, 再編成エネルギー, 振動支援, 励起子移動, エネルギー局在などの問題をよく解釈している。 さらに,一定の強度で最適輸送効率が存在することを実験的に実証し,環境支援量子輸送を詳細に検討するための窓を提供する。

Quantum effects in photosynthetic energy transport in nature, especially for the typical Fenna-Matthews-Olson (FMO) complexes, are extensively studied in quantum biology. Such energy transport processes can be investigated as open quantum systems that blend the quantum coherence and environmental noises, and have been experimentally simulated on a few quantum devices. However, the existing experiments always lack a solid quantum simulation for the FMO energy transport due to their constraints to map a variety of issues in actual FMO complexes that have rich biological meanings. Here we successfully map the full coupling profile of the seven-site FMO structure by comprehensive characterization and precise control of the evanescent coupling of the three-dimensional waveguide array. By applying a stochastic dynamical modulation on each waveguide, we introduce the base site energy and the dephasing term in colored noises to faithfully simulate the power spectral density of the FMO complexes. We show our photonic model well interprets the issues including the reorganization energy, vibrational assistance, exciton transfer and energy localization. We further experimentally demonstrate the existence of an optimal transport efficiency at certain dephasing strength, providing a window to closely investigate environment-assisted quantum transport.
翻訳日:2023-11-06 13:33:21 公開日:2023-11-03
# Bagged Posterior を用いた再現可能なパラメータ推定

Reproducible Parameter Inference Using Bagged Posteriors ( http://arxiv.org/abs/2311.02019v1 )

ライセンス: Link先を確認
Jonathan H. Huggins, Jeffrey W. Miller(参考訳) モデルの誤特定の下では、ベイズ後流はしばしば真または偽のパラメータに関する不確かさを適切に定量化しないことが知られている。 さらに根本的には、不特定性は、同じモデルが真の分布から独立したデータセットに矛盾した後続を与えるという意味で再現性の欠如をもたらす。 誤特定下で再現可能な不確実性定量化の基準を定義するために,独立データセットから構築した2つの信頼度集合が空でない重複を持つ確率を考え,任意の有効な信頼度集合に対するこの重複確率の下限を確立する。 特に高次元の設定(例えば、標本サイズとともに次元が増加する)において、標準後部からの信条集合がこの境界に強く違反しうることを証明し、不特定の下で内部的にコヒーレントでないことを示す。 そこで本研究では,ベイズ後部(BayesBag'')にバッグを施し,ブートストラップ付きデータセットに条件付した後部分布の平均値を用いて再現性を向上させることを提案する。 我々は、ジェフリー条件化に基づく第一原理からベイズバグを動機付け、バッジ後部が典型的には重なり合う下界を満たすことを示す。 さらに、バッジ後部に対するベルンシュタイン-フォン・ミセスの定理を証明し、その漸近正規分布を確立する。 シミュレーション実験によるベイズバグの利点と犯罪率予測への応用について述べる。

Under model misspecification, it is known that Bayesian posteriors often do not properly quantify uncertainty about true or pseudo-true parameters. Even more fundamentally, misspecification leads to a lack of reproducibility in the sense that the same model will yield contradictory posteriors on independent data sets from the true distribution. To define a criterion for reproducible uncertainty quantification under misspecification, we consider the probability that two confidence sets constructed from independent data sets have nonempty overlap, and we establish a lower bound on this overlap probability that holds for any valid confidence sets. We prove that credible sets from the standard posterior can strongly violate this bound, particularly in high-dimensional settings (i.e., with dimension increasing with sample size), indicating that it is not internally coherent under misspecification. To improve reproducibility in an easy-to-use and widely applicable way, we propose to apply bagging to the Bayesian posterior ("BayesBag"'); that is, to use the average of posterior distributions conditioned on bootstrapped datasets. We motivate BayesBag from first principles based on Jeffrey conditionalization and show that the bagged posterior typically satisfies the overlap lower bound. Further, we prove a Bernstein--Von Mises theorem for the bagged posterior, establishing its asymptotic normal distribution. We demonstrate the benefits of BayesBag via simulation experiments and an application to crime rate prediction.
翻訳日:2023-11-06 13:33:00 公開日:2023-11-03
# オープンワールド環境におけるアクティブ推論

Active Reasoning in an Open-World Environment ( http://arxiv.org/abs/2311.02018v1 )

ライセンス: Link先を確認
Manjie Xu, Guangyuan Jiang, Wei Liang, Chi Zhang, Yixin Zhu(参考訳) 視覚言語学習の最近の進歩は、広範な世界知識の統合を通じて、全情報質問応答データセットにおいて顕著な成功を収めている。 しかし、ほとんどのモデルは受動的に動作し、事前の知識に基づいて質問に答える。 対照的に、人間は不完全な情報問題に取り組むために、新しい情報と既存の情報の両方を使って積極的に探索し、蓄積し、推論する能力を持っている。 このギャップに対応するために,我々は,アクティブ推論の評価のために考案された対話型オープンワールド環境である$conan$を導入する。 conan$はアクティブな探索を促進し、minecraftのようなリッチでオープンワールドな設定を思い起こさせる多ラウンドの推論を促進する。 命令を通した単一ラウンドの推論に主に依存する以前の研究から逸脱し、$Conan$ compels agent は周囲と積極的に相互作用し、不完全な観測から出来事を解明するための以前の知識と新しい証拠を融合させる。 当社の$conan$に関する分析は、複雑なシナリオのアクティブな探索と理解における現代の最先端モデルの欠点を浮き彫りにしている。 さらに, エージェントがベイズ規則を利用して, 誘拐の難しさを誘引的プロセスとして再放送する, 誘惑からのアブダクションについても検討する。 我々は、$Conan$を通じて、アクティブな推論の進歩を活性化し、環境に動的に関与できる次世代の人工知能エージェントの舞台を整える。

Recent advances in vision-language learning have achieved notable success on complete-information question-answering datasets through the integration of extensive world knowledge. Yet, most models operate passively, responding to questions based on pre-stored knowledge. In stark contrast, humans possess the ability to actively explore, accumulate, and reason using both newfound and existing information to tackle incomplete-information questions. In response to this gap, we introduce $Conan$, an interactive open-world environment devised for the assessment of active reasoning. $Conan$ facilitates active exploration and promotes multi-round abductive inference, reminiscent of rich, open-world settings like Minecraft. Diverging from previous works that lean primarily on single-round deduction via instruction following, $Conan$ compels agents to actively interact with their surroundings, amalgamating new evidence with prior knowledge to elucidate events from incomplete observations. Our analysis on $Conan$ underscores the shortcomings of contemporary state-of-the-art models in active exploration and understanding complex scenarios. Additionally, we explore Abduction from Deduction, where agents harness Bayesian rules to recast the challenge of abduction as a deductive process. Through $Conan$, we aim to galvanize advancements in active reasoning and set the stage for the next generation of artificial intelligence agents adept at dynamically engaging in environments.
翻訳日:2023-11-06 13:32:35 公開日:2023-11-03
# DeliverAI: 食品デリバリーのための強化学習に基づく分散パス共有ネットワーク

DeliverAI: Reinforcement Learning Based Distributed Path-Sharing Network for Food Deliveries ( http://arxiv.org/abs/2311.02017v1 )

ライセンス: Link先を確認
Ashman Mehra, Snehanshu Saha, Vaskar Raychoudhury, Archana Mathur(参考訳) 生産者から消費者への商品の配送は過去10年間で著しい成長を遂げており、近年のパンデミックの影響で大幅に加速している。 Amazon Fresh、Shopify、UberEats、InstaCart、DoorDashは急速に成長しており、消費者製品やフードデリバリーのビジネスモデルを共有している。 既存の食品の配送方法は、各配送が個別に最適化され、最も短い時間経路で生産者から直接消費者に届けられるため、準最適である。 現在のモデルでは、納品の完了に伴うコストを削減するための重要なスコープを観察する。 我々は、食品デリバリー問題を多目的最適化としてモデル化し、消費者満足度と配送コストの両方を最適化する必要がある。 タクシー業界におけるライドシェアリングの成功から着想を得て,強化学習に基づくパスシェアリングアルゴリズムであるdeliveryaiを提案する。 従来のパス共有の試みとは異なり、DeliverAIはReinforcement学習対応エージェントシステムを使用してリアルタイム、時間効率の意思決定を行うことができる。 新たなエージェントインタラクション方式では,配送の経路共有を利用して,配送完了時間を維持しながら移動距離を削減する。 シカゴ市の実データを用いてシミュレーション装置を用いて,本手法を活発に生成・試験する。 以上の結果から,DeliverAIは配送船の規模を12.5%減らし,走行距離を13%減らし,ベースラインに比べて50%高い艦隊利用率を達成することができた。

Delivery of items from the producer to the consumer has experienced significant growth over the past decade and has been greatly fueled by the recent pandemic. Amazon Fresh, Shopify, UberEats, InstaCart, and DoorDash are rapidly growing and are sharing the same business model of consumer items or food delivery. Existing food delivery methods are sub-optimal because each delivery is individually optimized to go directly from the producer to the consumer via the shortest time path. We observe a significant scope for reducing the costs associated with completing deliveries under the current model. We model our food delivery problem as a multi-objective optimization, where consumer satisfaction and delivery costs, both, need to be optimized. Taking inspiration from the success of ride-sharing in the taxi industry, we propose DeliverAI - a reinforcement learning-based path-sharing algorithm. Unlike previous attempts for path-sharing, DeliverAI can provide real-time, time-efficient decision-making using a Reinforcement learning-enabled agent system. Our novel agent interaction scheme leverages path-sharing among deliveries to reduce the total distance traveled while keeping the delivery completion time under check. We generate and test our methodology vigorously on a simulation setup using real data from the city of Chicago. Our results show that DeliverAI can reduce the delivery fleet size by 12\%, the distance traveled by 13%, and achieve 50% higher fleet utilization compared to the baselines.
翻訳日:2023-11-06 13:32:12 公開日:2023-11-03
# オフライン目標条件強化学習のためのスコアモデル

Score Models for Offline Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2311.02013v1 )

ライセンス: Link先を確認
Harshit Sikchi, Rohan Chitnis, Ahmed Touati, Alborz Geramifard, Amy Zhang, Scott Niekum(参考訳) オフライン目標条件強化学習(gcrl)は、スパース報酬関数を使用してオフラインデータセットから純粋に複数の目標を達成するための学習を任務とする。 オフラインGCRLは、既存のデータセットを活用して、手作業による報酬関数なしで、多種多様な再利用可能なスキルを学習できる汎用エージェントを開発する上で重要である。 しかし、教師付き学習とコントラスト学習に基づくGCRLの現代的アプローチは、オフライン環境では、しばしば準最適である。 GCRLに対する別の見方は、占有のマッチングを最適化するが、識別器を学習する必要がある。 学習した判別器の不正確さはカスケードし、その結果のポリシーに悪影響を及ぼす。 我々は, 混合分布マッチングの新たなレンズを用いて, gcrlに対する新しいアプローチを提案する。 重要な洞察は、gcrlの占有者マッチングの観点と凸双対の定式化を組み合わせることで、より最適なオフラインデータを活用する学習目標を導出することである。 SMOREは、特定の目標を達成するための状態においてアクションを取ることの重要性を表すスコアまたは非正規化された密度を学ぶ。 SMOReの原理を定式化し,ロボット操作と移動作業からなる完全オフラインGCRLベンチマークによる広範な実験により,SMOReが最先端のベースラインを著しく上回ることを示す。

Offline Goal-Conditioned Reinforcement Learning (GCRL) is tasked with learning to achieve multiple goals in an environment purely from offline datasets using sparse reward functions. Offline GCRL is pivotal for developing generalist agents capable of leveraging pre-existing datasets to learn diverse and reusable skills without hand-engineering reward functions. However, contemporary approaches to GCRL based on supervised learning and contrastive learning are often suboptimal in the offline setting. An alternative perspective on GCRL optimizes for occupancy matching, but necessitates learning a discriminator, which subsequently serves as a pseudo-reward for downstream RL. Inaccuracies in the learned discriminator can cascade, negatively influencing the resulting policy. We present a novel approach to GCRL under a new lens of mixture-distribution matching, leading to our discriminator-free method: SMORe. The key insight is combining the occupancy matching perspective of GCRL with a convex dual formulation to derive a learning objective that can better leverage suboptimal offline data. SMORe learns scores or unnormalized densities representing the importance of taking an action at a state for reaching a particular goal. SMORe is principled and our extensive experiments on the fully offline GCRL benchmark composed of robot manipulation and locomotion tasks, including high-dimensional observations, show that SMORe can outperform state-of-the-art baselines by a significant margin.
翻訳日:2023-11-06 13:31:47 公開日:2023-11-03
# 数千のキャスト: IDEAS Productivity プロジェクトはいかにしてソフトウェア生産性と持続可能性を高めているか

A cast of thousands: How the IDEAS Productivity project has advanced software productivity and sustainability ( http://arxiv.org/abs/2311.02010v1 )

ライセンス: Link先を確認
Lois Curfman McInnes, Michael Heroux, David E. Bernholdt, Anshu Dubey, Elsa Gonsiorowski, Rinku Gupta, Osni Marques, J. David Moulton, Hai Ah Nam, Boyana Norris, Elaine M. Raybourn, Jim Willenbring, Ann Almgren, Ross Bartlett, Kita Cranfill, Stephen Fickas, Don Frederick, William Godoy, Patricia Grubel, Rebecca Hartman-Baker, Axel Huebl, Rose Lynch, Addi Malviya Thakur, Reed Milewicz, Mark C. Miller, Miranda Mundt, Erik Palmer, Suzanne Parete-Koon, Megan Phinney, Katherine Riley, David M. Rogers, Ben Sims, Deborah Stevens and Gregory R. Watson(参考訳) 計算とデータ対応の科学と工学は、あらゆる規模のコンピューティングにおいて、科学と社会の進歩に革命をもたらしている。 例えば、米国DOE Exascale Computing Projectのチームは、前例のないエクサスケールコンピューティング能力を活用することによって、モデリング、シミュレーション、分析の新たなフロンティアに取り組み、次世代アプリケーションをサポートし、コンピュータアーキテクチャの破壊的な変化に対処する高度なソフトウェアエコシステムを構築している。 しかし、科学ソフトウェアの開発者の生産性、持続可能性、そしてそれが生み出す結果の信頼性に関する懸念が高まっている。 IDEASプロジェクトのメンバーは、これらの課題に対処するための触媒として、ソフトウェアコミュニティの育成、方法論とリソースのインキュベーションとキュレーション、開発者の生産性とソフトウェア持続可能性を向上させるための知識の普及などを行っている。 本稿では,これらのシナジスティックな活動が,ラップトップからクラスタ,エクサスケールなど,あらゆる規模の再現可能で持続可能な科学の基盤を構築することによって,科学的発見を緩和する技術的リスクをいかに前進させているかを論じる。

Computational and data-enabled science and engineering are revolutionizing advances throughout science and society, at all scales of computing. For example, teams in the U.S. DOE Exascale Computing Project have been tackling new frontiers in modeling, simulation, and analysis by exploiting unprecedented exascale computing capabilities-building an advanced software ecosystem that supports next-generation applications and addresses disruptive changes in computer architectures. However, concerns are growing about the productivity of the developers of scientific software, its sustainability, and the trustworthiness of the results that it produces. Members of the IDEAS project serve as catalysts to address these challenges through fostering software communities, incubating and curating methodologies and resources, and disseminating knowledge to advance developer productivity and software sustainability. This paper discusses how these synergistic activities are advancing scientific discovery-mitigating technical risks by building a firmer foundation for reproducible, sustainable science at all scales of computing, from laptops to clusters to exascale and beyond.
翻訳日:2023-11-06 13:31:23 公開日:2023-11-03
# LiDAR点雲からの非教師対象検出に向けて

Towards Unsupervised Object Detection From LiDAR Point Clouds ( http://arxiv.org/abs/2311.02007v1 )

ライセンス: Link先を確認
Lunjun Zhang, Anqi Joyce Yang, Yuwen Xiong, Sergio Casas, Bin Yang, Mengye Ren, Raquel Urtasun(参考訳) 本稿では,自動運転シーンにおける3次元点雲からの教師なし物体検出の問題について検討する。 我々は、単純かつ効果的な方法を提案する。 (i)点雲が密集した近距離領域における点クラスタリング (ii)ノイズ非教師あり検出をフィルタリングする時間的一貫性。 (iii)自動ラベルを長距離に拡張するcnnの翻訳等価性、及び (iv)自己改善のための自己監督。 我々のアプローチであるOYSTER(Object Discovery via Spatio-Temporal Refinement)は、データ収集に制約を課さず(同じ位置の繰り返しトラバーサルなど)、微調整を監督せずにゼロショットでオブジェクトを検出でき、反復的な自己学習のラウンドを多く与え続けています。 自律走行シナリオにおけるモデル性能をよりよく計測するために,距離から衝突までに基づく新しい計画中心の知覚指標を提案する。 我々は、PandaSetとArgoverse 2 Sensorデータセットの教師なしベースラインを著しく上回り、オブジェクト先行と自己監督が組み合わさって、野生でのオブジェクト発見を可能にすることを示す。 詳細はプロジェクトのwebサイト(https://waabi.ai/research/oyster.com)を参照してください。

In this paper, we study the problem of unsupervised object detection from 3D point clouds in self-driving scenes. We present a simple yet effective method that exploits (i) point clustering in near-range areas where the point clouds are dense, (ii) temporal consistency to filter out noisy unsupervised detections, (iii) translation equivariance of CNNs to extend the auto-labels to long range, and (iv) self-supervision for improving on its own. Our approach, OYSTER (Object Discovery via Spatio-Temporal Refinement), does not impose constraints on data collection (such as repeated traversals of the same location), is able to detect objects in a zero-shot manner without supervised finetuning (even in sparse, distant regions), and continues to self-improve given more rounds of iterative self-training. To better measure model performance in self-driving scenarios, we propose a new planning-centric perception metric based on distance-to-collision. We demonstrate that our unsupervised object detector significantly outperforms unsupervised baselines on PandaSet and Argoverse 2 Sensor dataset, showing promise that self-supervision combined with object priors can enable object discovery in the wild. For more information, visit the project website: https://waabi.ai/research/oyster
翻訳日:2023-11-06 13:31:02 公開日:2023-11-03
# モデルベース深層学習のための構造化プルーニングアルゴリズム

A Structured Pruning Algorithm for Model-based Deep Learning ( http://arxiv.org/abs/2311.02003v1 )

ライセンス: Link先を確認
Chicago Park, Weijie Gan, Zihao Zou, Yuyang Hu, Zhixin Sun, Ulugbek S. Kamilov(参考訳) 画像逆問題に対するモデルベースディープラーニング(MBDL)への関心が高まっている。 mbdlネットワークは、物理計測モデルと畳み込みニューラルネットワーク(cnns)を用いて予め指定した学習画像を用いて所望の画像を推定する反復アルゴリズムと見なすことができる。 MBDLネットワークの反復性は、テスト時間計算の複雑さを増大させ、特定の大規模アプリケーションに適用性を制限する。 本稿では,モデルベースディープラーニング(SPADE)のための構造化プルーニングアルゴリズムを,MBDLネットワークにおける最初の構造化プルーニングアルゴリズムとして提示する。 SPADEは、MBDLネットワーク内で使用されるCNNの計算量を減らす。 我々は,pruned mbdlネットワークの性能低下を最小限に抑えるための3つの戦略を提案する。 それぞれの微調整戦略には独自の利点があり、事前訓練されたモデルと高品質の地上真実の存在に依存する。 我々はSPADEを2つの異なる逆問題、すなわち圧縮されたセンシングMRIと画像超解像で検証する。 以上の結果から,SPADEで刈り取ったMBDLモデルは,競争性能を維持しつつ,試験時間を大幅に高速化できることがわかった。

There is a growing interest in model-based deep learning (MBDL) for solving imaging inverse problems. MBDL networks can be seen as iterative algorithms that estimate the desired image using a physical measurement model and a learned image prior specified using a convolutional neural net (CNNs). The iterative nature of MBDL networks increases the test-time computational complexity, which limits their applicability in certain large-scale applications. We address this issue by presenting structured pruning algorithm for model-based deep learning (SPADE) as the first structured pruning algorithm for MBDL networks. SPADE reduces the computational complexity of CNNs used within MBDL networks by pruning its non-essential weights. We propose three distinct strategies to fine-tune the pruned MBDL networks to minimize the performance loss. Each fine-tuning strategy has a unique benefit that depends on the presence of a pre-trained model and a high-quality ground truth. We validate SPADE on two distinct inverse problems, namely compressed sensing MRI and image super-resolution. Our results highlight that MBDL models pruned by SPADE can achieve substantial speed up in testing time while maintaining competitive performance.
翻訳日:2023-11-06 13:30:42 公開日:2023-11-03
# 高分解能ODEの変分的展望

A Variational Perspective on High-Resolution ODEs ( http://arxiv.org/abs/2311.02002v1 )

ライセンス: Link先を確認
Hoomaan Maskan, Konstantinos C. Zygalakis, Alp Yurtsever(参考訳) 我々は滑らかな凸関数の無拘束最小化を考える。 本稿では,高分解能ODEの研究を可能にする強制オイラー・ラグランジュ方程式を用いた新しい変分視点を提案する。 これにより、ネステロフの加速度勾配法を用いた勾配ノルム最小化の高速収束率が得られる。 さらに、Nesterovの手法は、適切に選択された高分解能ODEのレートマッチング離散化として解釈できることを示す。 最後に,新しい変分的視点から得られた結果を用いて,雑音勾配の確率的手法を提案する。 いくつかの数値実験により, 確率的アルゴリズムと最先端の手法を比較し, 解説した。

We consider unconstrained minimization of smooth convex functions. We propose a novel variational perspective using forced Euler-Lagrange equation that allows for studying high-resolution ODEs. Through this, we obtain a faster convergence rate for gradient norm minimization using Nesterov's accelerated gradient method. Additionally, we show that Nesterov's method can be interpreted as a rate-matching discretization of an appropriately chosen high-resolution ODE. Finally, using the results from the new variational perspective, we propose a stochastic method for noisy gradients. Several numerical experiments compare and illustrate our stochastic algorithm with state of the art methods.
翻訳日:2023-11-06 13:30:23 公開日:2023-11-03
# 非有界勾配およびアフィン変動雑音下でのアダムの高確率収束

High Probability Convergence of Adam Under Unbounded Gradients and Affine Variance Noise ( http://arxiv.org/abs/2311.02000v1 )

ライセンス: Link先を確認
Yusu Hong and Junhong Lin(参考訳) 本稿では,制約のない非凸スムース確率最適化における適応モーメント推定(adam)アルゴリズムの収束について検討する。 機械学習の分野では広く使われているが、理論的性質は限られている。 先行研究は主にアダムの収束を期待して研究し、一様確率的有界勾配や問題依存的知識のような強い仮定をしばしば必要としていた。 その結果、現実のシナリオにおけるこれらの発見の適用性は制約されている。 これらの制限を克服するために、Adam が高確率で定常点に収束できることを示す深い分析と、座標ワイドな「アフィン」分散雑音の下での$\mathcal{O}\left({\rm poly}(\log T)/\sqrt{T}\right)$で、超パラメータをチューニングする前に境界勾配仮定や問題依存知識を必要としないことを示す。 さらに、adam はその勾配の大きさを $\mathcal{o}\left({\rm poly}(\log t)\right)$ の順序で定義する。 最後に,修正項の1つを使わずにadamの簡易版を調査し,雑音レベルに適応した収束率を求める。

In this paper, we study the convergence of the Adaptive Moment Estimation (Adam) algorithm under unconstrained non-convex smooth stochastic optimizations. Despite the widespread usage in machine learning areas, its theoretical properties remain limited. Prior researches primarily investigated Adam's convergence from an expectation view, often necessitating strong assumptions like uniformly stochastic bounded gradients or problem-dependent knowledge in prior. As a result, the applicability of these findings in practical real-world scenarios has been constrained. To overcome these limitations, we provide a deep analysis and show that Adam could converge to the stationary point in high probability with a rate of $\mathcal{O}\left({\rm poly}(\log T)/\sqrt{T}\right)$ under coordinate-wise "affine" variance noise, not requiring any bounded gradient assumption and any problem-dependent knowledge in prior to tune hyper-parameters. Additionally, it is revealed that Adam confines its gradients' magnitudes within an order of $\mathcal{O}\left({\rm poly}(\log T)\right)$. Finally, we also investigate a simplified version of Adam without one of the corrective terms and obtain a convergence rate that is adaptive to the noise level.
翻訳日:2023-11-06 13:30:14 公開日:2023-11-03
# キャビティ内加圧光と加圧真空注入によるミラーミラーエンタングルメントの増強

Enhancement of mirror-mirror entanglement with intracavity squeezed light and squeezed-vacuum injection ( http://arxiv.org/abs/2311.01998v1 )

ライセンス: Link先を確認
Noura Chabar, M'bark Amghar, Mohamed Amazioug, and Mostafa Nassik(参考訳) 本論文では, 光学系内での励起光から可動ミラーへの量子相関の伝達の促進について検討する。 この増強は、空洞内への圧縮光注入と、空洞内圧縮光によるものである。 機械振動子間の絡み合いを対数ネガティビティで定量する。 エンタングルメントは、パラメトリック増幅器の利得、圧縮光を特徴付けるスクイーズパラメータ、フォノントンネル過程の速度、光子ホッピング過程の結合強度、メカニカル発振器の入浴温度など、様々な要因に影響されていることを示した。 我々は,光子ホッピング過程における結合強度の簡便な選択とパラメトリック増幅器の利得の特定値により,絡み合いを向上できることを示した。

In this manuscript, we investigate the enhancement of the transfer of quantum correlations from squeezed light to movable mirrors within an optomechanical system. This enhancement was achieved via the injection of squeezed light in the cavities and via intracavity squeezed light. We quantify the entanglement between mechanical oscillators via logarithmic negativity. We demonstrate that entanglement is influenced by various factors, including the gain of the parametric amplifier, the squeezing parameter characterizing the squeezed light, the rate of the phonon tunneling process, the coupling strength of the photon hopping process and the bath temperature of the mechanical oscillators. We have shown that entanglement can be improved by a convenient choice of coupling strength in the case of the photon hopping process, as well as for specified values of the gain of the parametric amplifier.
翻訳日:2023-11-06 13:29:48 公開日:2023-11-03
# EmerNeRF: 自己スーパービジョンによる創発的空間時間シーン分解

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision ( http://arxiv.org/abs/2311.02077v1 )

ライセンス: Link先を確認
Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang(参考訳) 動的駆動シーンの時空間表現を学習するための,シンプルながら強力なアプローチであるEmerNeRFを提案する。 神経界に接して、emernerfは自己ブートストラップによってシーンの幾何学、外観、動き、セマンティクスを同時に捉える。 EmerNeRFは2つのコアコンポーネントにヒンジする: まず、シーンを静的および動的フィールドに階層化する。 この分解は、純粋に自己スーパービジョンから発生し、モデルが一般のデータソースから学習できるようにします。 第二に、EmerNeRFは動的場から誘導された流れ場をパラメータ化し、この流れ場を用いて複数のフレームの特徴をさらに集約し、動的オブジェクトのレンダリング精度を増幅する。 これら3つのフィールド(静的、動的、フロー)を結合することで、emernerfは、動的オブジェクトのセグメンテーションや光フロー推定のための事前学習されたモデルに頼ることなく、高ダイナミックなシーンを自己完結的に表現できる。 センサシミュレーションでは,静的 (+2.93 PSNR) および動的 (+3.70 PSNR) シーンの再構成において, 従来の手法よりも大幅に優れていた。 さらに,emernerfの意味的一般化を促進するために,2次元視覚基礎モデルの特徴を4次元時空に持ち上げ,現代のトランスフォーマーにおける一般的な位置偏りに対処し,3次元知覚性能を著しく向上させる(例えば,平均して占有率予測精度の37.50%向上)。 最後に、極端かつ高ダイナミックな設定下でニューラルネットワークをベンチマークするために、多種多様な120列データセットを構築します。

We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.
翻訳日:2023-11-06 13:22:06 公開日:2023-11-03
# ニューラルネットワークトレーニングにおける普遍的シャープネスダイナミクス:固定点解析、安定性の端、カオスへの経路

Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos ( http://arxiv.org/abs/2311.02076v1 )

ライセンス: Link先を確認
Dayal Singh Kalra, Tianyu He, Maissam Barkeshli(参考訳) ニューラルネットワークの勾配降下ダイナミクスでは、損失(シャープ性)のヘシアンのトップ固有値は、トレーニングを通して様々な堅牢な現象を示す。 これには、訓練初期のシャープネス(シャープネスの低減)の間にシャープネスが減少する可能性がある早期政権や、プログレッシブシャープニングや安定性の端といった後の時間行動が含まれる。 1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)は、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示す。 関数空間における動的固定点の構造と関数更新のベクトル場を解析することにより、これらのシャープネストレンドの背後にあるメカニズムを明らかにする。 我々の分析は (i)早期の鋭さの低下と漸進的な鋭さの背後にあるメカニズム (二)安定性の限界に必要な条件、及び 3) 学習率の増加に伴い, 安定多様体の端面のカオスへの周期的分岐経路が増加する。 最後に,この単純化モデルから得られる様々な予測を実世界のシナリオに一般化し,その限界について議論する。

In gradient descent dynamics of neural networks, the top eigenvalue of the Hessian of the loss (sharpness) displays a variety of robust phenomena throughout training. This includes early time regimes where the sharpness may decrease during early periods of training (sharpness reduction), and later time behavior such as progressive sharpening and edge of stability. We demonstrate that a simple $2$-layer linear network (UV model) trained on a single training example exhibits all of the essential sharpness phenomenology observed in real-world scenarios. By analyzing the structure of dynamical fixed points in function space and the vector field of function updates, we uncover the underlying mechanisms behind these sharpness trends. Our analysis reveals (i) the mechanism behind early sharpness reduction and progressive sharpening, (ii) the required conditions for edge of stability, and (iii) a period-doubling route to chaos on the edge of stability manifold as learning rate is increased. Finally, we demonstrate that various predictions from this simplified model generalize to real-world scenarios and discuss its limitations.
翻訳日:2023-11-06 13:21:31 公開日:2023-11-03
# 正確でロバストな視覚追跡のための歴史的ステータスプロンプトの学習

Learning Historical Status Prompt for Accurate and Robust Visual Tracking ( http://arxiv.org/abs/2311.02072v1 )

ライセンス: Link先を確認
Wenrui Cai and Qingjie Liu and Yunhong Wang(参考訳) ほとんどのトラッカーは、追跡中にテンプレートと最も似たオブジェクトを見つけるために、テンプレートと検索領域の類似性を実行する。 しかし,従来のフレームの予測結果に基づいて,現在検索領域を大まかに把握することで生じる限られた歴史情報により,ターゲットの外観が変化した場合の予測に苦慮している。 本稿では,既存のトラッカーの性能向上における中心的障害が,豊富かつ効果的な歴史的情報の統合能力の欠如であることを示す。 この問題に対処するため,歴史的情報の提供を強化するために,歴史情報プロンプタ(HIP)を提案する。 また、HIPTrackをHIPモジュール上に構築する。 HIPは、検索領域の機能を完全に活用して、歴史的外観情報を導入するプラグイン・アンド・プレイモジュールである。 また、ターゲットの精巧なマスクを構築することで、歴史的位置情報も組み込む。 HIPは、歴史的情報プロンプトを生成する軽量モジュールである。 履歴情報プロンプトを統合することで、HIPTrackはバックボーンを再トレーニングすることなくトラッキング性能を大幅に向上する。 実験により,本手法はLaSOT,LaSOT ext,GOT10k,NfSの最先端手法よりも優れていた。 さらに、HIPモジュールは強力な汎用性を示し、トラッカーにシームレスに統合してトラッキング性能を向上させることができる。 ソースコードとモデルはさらなる研究のためにリリースされる予定だ。

Most trackers perform template and search region similarity matching to find the most similar object to the template during tracking. However, they struggle to make prediction when the target appearance changes due to the limited historical information introduced by roughly cropping the current search region based on the predicted result of previous frame. In this paper, we identify that the central impediment to improving the performance of existing trackers is the incapacity to integrate abundant and effective historical information. To address this issue, we propose a Historical Information Prompter (HIP) to enhance the provision of historical information. We also build HIPTrack upon HIP module. HIP is a plug-and-play module that make full use of search region features to introduce historical appearance information. It also incorporates historical position information by constructing refined mask of the target. HIP is a lightweight module to generate historical information prompts. By integrating historical information prompts, HIPTrack significantly enhances the tracking performance without the need to retrain the backbone. Experimental results demonstrate that our method outperforms all state-of-the-art approaches on LaSOT, LaSOT ext, GOT10k and NfS. Futhermore, HIP module exhibits strong generality and can be seamlessly integrated into trackers to improve tracking performance. The source code and models will be released for further research.
翻訳日:2023-11-06 13:21:13 公開日:2023-11-03
# 科学的画像を用いたGPT-Vision能力の接地的直観

Grounded Intuition of GPT-Vision's Abilities with Scientific Images ( http://arxiv.org/abs/2311.02069v1 )

ライセンス: Link先を確認
Alyssa Hwang, Andrew Head, Chris Callison-Burch(参考訳) GPT-Visionは、さまざまな視覚言語タスクに感銘を受けていますが、慣れ親しんだ新しい課題があります。 本研究では,この新モデルの「接地的直観」を本能的に開発しようとしている過程を定式化する。 近年のベンチマークから先駆的な質的評価に着想を得て,社会科学と人間とコンピュータの相互作用における接地理論と主題分析を行い,自然言語処理における質的評価の厳格な枠組みを確立した。 本手法は,科学図形のaltテキスト生成を検証し,gpt-visionが画像のプロンプト,偽テキスト,相対的空間的関係に特に敏感であることを見出した。 我々の手法と分析は、GPT-Visionがいかにして情報にアクセスしやすくできるかを明らかにしながら、研究者が新しいモデルの基盤となる直感を高めるのに役立つことを目的としている。

GPT-Vision has impressed us on a range of vision-language tasks, but it comes with the familiar new challenge: we have little idea of its capabilities and limitations. In our study, we formalize a process that many have instinctively been trying already to develop "grounded intuition" of this new model. Inspired by the recent movement away from benchmarking in favor of example-driven qualitative evaluation, we draw upon grounded theory and thematic analysis in social science and human-computer interaction to establish a rigorous framework for qualitative evaluation in natural language processing. We use our technique to examine alt text generation for scientific figures, finding that GPT-Vision is particularly sensitive to prompting, counterfactual text in images, and relative spatial relationships. Our method and analysis aim to help researchers ramp up their own grounded intuitions of new models while exposing how GPT-Vision can be applied to make information more accessible.
翻訳日:2023-11-06 13:20:55 公開日:2023-11-03
# 連続弱測定の漸近挙動とそのリアルタイムパラメータ推定への応用

Asymptotic behavior of continuous weak measurement and its application to real-time parameter estimation ( http://arxiv.org/abs/2311.02066v1 )

ライセンス: Link先を確認
Chungwei Lin and Yanting Ma and Dries Sels(参考訳) 磁力計の弱連続測定の漸近量子軌道について検討した。 磁力計とは、磁場から推定された時間と測定されたモーメントが直交する設定を指し、量子状態は、決定的部分に加えて測定結果に依存する確率的マスター方程式によって制御される。 一つの実現が与えられたとき、任意の初期状態から始まる量子軌道は、漸近的に「em same} 実化特異的な {\em pure} 状態へと収束する。 単量子系では、有効な一次元確率方程式を導出して解析することにより、確率論の枠組みの中でこのステートメントを証明できる。 数値シミュレーションは、マルチキュービットシステムに対して同じステートメントが成り立つことを強く示している。 この結論に基づいて,初期状態に対する無感性に係わる実時間パラメータ推定の問題を考察し,量子状態と場間推定を同時に更新する手法を明示的に提案し,検証する。

The asymptotic quantum trajectory of weak continuous measurement for the magnetometer is investigated. The magnetometer refers to a setup where the field-to-estimate and the measured moment are orthogonal, and the quantum state is governed by the stochastic master equation which, in addition to a deterministic part, depends on the measurement outcomes. We find that the asymptotic behavior is insensitive to the initial state in the following sense: given one realization, the quantum trajectories starting from arbitrary initial states asymptotically converge to the {\em same} realization-specific {\em pure} state. For single-qubit systems, we are able to prove this statement within the framework of Probability Theory by deriving and analyzing an effective one-dimensional stochastic equation. Numerical simulations strongly indicate that the same statement holds for multi-qubit systems. Built upon this conclusion, we consider the problem of real-time parameter estimation whose feasibility hinges on the insensitivity to the initial state, and explicitly propose and test a scheme where the quantum state and the field-to-estimate are updated simultaneously.
翻訳日:2023-11-06 13:20:36 公開日:2023-11-03
# アクティブラーニングに基づく種範囲推定

Active Learning-Based Species Range Estimation ( http://arxiv.org/abs/2311.02061v1 )

ライセンス: Link先を確認
Christian Lange, Elijah Cole, Grant Van Horn, Oisin Mac Aodha(参考訳) 本研究では,地上観測の限られた数から種の地理的範囲を効率的に推定する新しいアクティブラーニング手法を提案する。 我々は、異なる種の集合から得られた推定範囲の重み付け結合として、未マッピング種の範囲をモデル化する。 本研究では,大規模に監視された群集観測データに基づいて訓練したモデルを用いて,この候補群を生成できることを示す。 そこで本研究では,未マッピング種の範囲における不確実性を最も少なくする地理的な場所を逐次選択する,新しいアクティブクエリ手法を開発した。 提案手法の詳細な評価を行い,1000種に対する専門家由来の評価データセットを用いて,既存のアクティブラーニング手法と比較した。 提案手法は, 少数のデータのみを用いても, エンド・ツー・エンドの学習モデルの性能を向上することを示す。 これは種範囲推定のためのトランスファー学習空間表現によるアクティブラーニングの有用性を強調する。 また、新種のクラウドソーシングデータセットを活用する価値も強調しており、種の範囲をモデル化するだけでなく、積極的に発見する上でも有用である。

We propose a new active learning approach for efficiently estimating the geographic range of a species from a limited number of on the ground observations. We model the range of an unmapped species of interest as the weighted combination of estimated ranges obtained from a set of different species. We show that it is possible to generate this candidate set of ranges by using models that have been trained on large weakly supervised community collected observation data. From this, we develop a new active querying approach that sequentially selects geographic locations to visit that best reduce our uncertainty over an unmapped species' range. We conduct a detailed evaluation of our approach and compare it to existing active learning methods using an evaluation dataset containing expert-derived ranges for one thousand species. Our results demonstrate that our method outperforms alternative active learning methods and approaches the performance of end-to-end trained models, even when only using a fraction of the data. This highlights the utility of active learning via transfer learned spatial representations for species range estimation. It also emphasizes the value of leveraging emerging large-scale crowdsourced datasets, not only for modeling a species' range, but also for actively discovering them.
翻訳日:2023-11-06 13:20:18 公開日:2023-11-03
# 量子鍵分布のための時間ビンおよびデコイ状態に対する低エラーエンコーダ

Low-error encoder for time-bin and decoy states for quantum key distribution ( http://arxiv.org/abs/2311.02059v1 )

ライセンス: Link先を確認
Davide Scalcon, Elisa Bazzani, Giuseppe Vallone, Paolo Villoresi, Marco Avesani(参考訳) タイムビン符号化は、光ファイバが導入したドリフトに対する堅牢性のため、光ファイバチャネルに量子鍵分布(qkd)を実装するために広く用いられてきた。 しかし, 干渉計構造を用いることで, 安定かつ低固有の量子ビット誤り率(QBER)をタイムビンシステムで達成することは困難である。 デコイ状態準備測定用キー装置QKDは、平均光子数が異なる値の低エラーかつ安定な状態を生成する必要がある状態エンコーダによって表現される。 本稿では,超低固有qber(<2e-5)と高安定性を有するタイムビンエンコーダであるmaczac (mach-zehder-sagnac)を提案する。 この装置はネストしたサニャックとマッハ・ツェンダー干渉計をベースとし、デコイと状態調整の両方に単一位相変調器を使用し、光学装置を大幅に単純化した。 エンコーダはアクティブ補償やフィードバックシステムを必要としないので、任意の次元の状態を生成するためにスケールできる。 デバイスの性能をスタンドアローンコンポーネントとして,完全なqkd実験で実現し,テストした。 超低QBERと高安定性と実験的単純性を組み合わせる能力により、提案装置は将来の高性能で低コストなQKDシステムのための重要なビルディングブロックとして使用できる。

Time-bin encoding has been widely used for implementing quantum key distribution (QKD) on optical fiber channels due to its robustness with respect to drifts introduced by the optical fiber. However, due to the use of interferometric structures, achieving stable and low intrinsic Quantum Bit Error rate (QBER) in time-bin systems can be challenging. A key device for decoy-state prepare & measure QKD is represented by the state encoder, that must generate low-error and stable states with different values of mean photon number. Here we propose the MacZac (Mach-Zehder-Sagnac), a time-bin encoder with ultra-low intrinsic QBER (<2e-5) and high stability. The device is based on nested Sagnac and Mach-Zehnder interferometers and uses a single phase modulator for both decoy and state preparation, greatly simplifying the optical setup. The encoder does not require any active compensation or feedback system and it can be scaled for the generation of states with arbitrary dimension. We experimentally realized and tested the device performances as a stand alone component and in a complete QKD experiments. Thanks to the capacity to combine extremely low QBER, high stability and experimental simplicity the proposed device can be used as a key building block for future high-performance, low-cost QKD systems.
翻訳日:2023-11-06 13:20:01 公開日:2023-11-03
# LOTUS:教師なしスキル発見によるロボットマニピュレーションのための継続的な模倣学習

LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery ( http://arxiv.org/abs/2311.02058v1 )

ライセンス: Link先を確認
Weikang Wan, Yifeng Zhu, Rutav Shah, Yuke Zhu(参考訳) LOTUSは,ロボットが生涯を通して,新しい操作タスクを継続的に,効率的に学習することを可能にする,連続的な模倣学習アルゴリズムである。 lotusの中核となるアイデアは、少数の人間のデモで新しいタスクの連続から成長を続けるスキルライブラリを構築することだ。 LOTUSは、オープンボキャブラリビジョンモデルを使用して継続的なスキル発見プロセスから始まり、未解決のデモンストレーションで提示される繰り返しパターンとしてスキルを抽出する。 継続的なスキル発見は、過去のタスクが壊滅的に忘れ去られるのを避けるために既存のスキルを更新し、新しいタスクを解決する新しいスキルを追加する。 LOTUSはメタコントローラを訓練し、生涯学習プロセスにおいて視覚ベースの操作タスクに取り組むために様々なスキルを柔軟に構成する。 総合実験の結果,ロータスは最先端ベースラインを11%以上の成功率で上回っており,従来の方法よりも優れた知識伝達能力を示している。 さらなる結果とビデオはプロジェクトのWebサイト(https://ut-austin-rpl.github.io/Lotus/)で見ることができる。

We introduce LOTUS, a continual imitation learning algorithm that empowers a physical robot to continuously and efficiently learn to solve new manipulation tasks throughout its lifespan. The core idea behind LOTUS is constructing an ever-growing skill library from a sequence of new tasks with a small number of human demonstrations. LOTUS starts with a continual skill discovery process using an open-vocabulary vision model, which extracts skills as recurring patterns presented in unsegmented demonstrations. Continual skill discovery updates existing skills to avoid catastrophic forgetting of previous tasks and adds new skills to solve novel tasks. LOTUS trains a meta-controller that flexibly composes various skills to tackle vision-based manipulation tasks in the lifelong learning process. Our comprehensive experiments show that LOTUS outperforms state-of-the-art baselines by over 11% in success rate, showing its superior knowledge transfer ability compared to prior methods. More results and videos can be found on the project website: https://ut-austin-rpl.github.io/Lotus/.
翻訳日:2023-11-06 13:19:36 公開日:2023-11-03
# Post Turing: LLM評価の展望をマッピングする

Post Turing: Mapping the landscape of LLM Evaluation ( http://arxiv.org/abs/2311.02049v1 )

ライセンス: Link先を確認
Alexey Tikhonov, Ivan P. Yamshchikov(参考訳) 急速に発展する大規模言語モデル(llm)の展望では、明確に定義された標準化された評価手法の導入が依然として重要な課題である。 本稿では,アラン・チューリングが提起した基礎的問題からAI研究の現代まで,LLM評価の歴史的軌跡を辿る。 我々はLSMの進化を異なる期間に分類し、それぞれに固有のベンチマークと評価基準を特徴付ける。 LLMはますます人間のような振る舞いを模倣しているため、チューリングテストのような従来の評価プロキシは信頼性が低下している。 これらのモデルのより広範な社会的意味を考慮し、統一評価システムの必要性を強調した。 共通の評価手法の分析を通じて,評価アプローチの質的変化を提唱し,標準化と客観的基準の重要性を強調する。 この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。

In the rapidly evolving landscape of Large Language Models (LLMs), introduction of well-defined and standardized evaluation methodologies remains a crucial challenge. This paper traces the historical trajectory of LLM evaluations, from the foundational questions posed by Alan Turing to the modern era of AI research. We categorize the evolution of LLMs into distinct periods, each characterized by its unique benchmarks and evaluation criteria. As LLMs increasingly mimic human-like behaviors, traditional evaluation proxies, such as the Turing test, have become less reliable. We emphasize the pressing need for a unified evaluation system, given the broader societal implications of these models. Through an analysis of common evaluation methodologies, we advocate for a qualitative shift in assessment approaches, underscoring the importance of standardization and objective criteria. This work serves as a call for the AI community to collaboratively address the challenges of LLM evaluation, ensuring their reliability, fairness, and societal benefit.
翻訳日:2023-11-06 13:19:18 公開日:2023-11-03
# 任意の対称二分割ベルシナリオに対するハーディ型パラドックス

Hardy-type paradoxes for an arbitrary symmetric bipartite Bell scenario ( http://arxiv.org/abs/2311.02045v1 )

ライセンス: Link先を確認
Kai-Siang Chen, Shiladitya Mal, Gelo Noel M. Tabia, and Yeong-Cherng Liang(参考訳) ベルの不等式と同様に、ハーディのパラドックスは、量子理論が与える予測と局所隠れ変数理論との矛盾を示す。 本研究では、2つの観測者を含む任意の対称なベルシナリオに対してそのようなパラドックスを示すハーディの主張を2つの一般化する。 私たちの建設はメングらを回復させます。 [植物rev. a. 98, 062103 (2018)]と,cabello [植物rev. a 65, 032108 (2002)] が特別に論じた。 2つの構成のうち、1つは自然に意味の推移性(fti)の失敗の証明として解釈できる。 さらに、特別なケースは、ハーディのパラドックスに対するはしご耐性型引数と同値である。 成功度という最適に一般化された成功確率の概念を通じて、FTIに基づく定式化が他の既存の提案よりも高い成功度を示すことを示す証拠を提供する。 さらに、このようなパラドックスにおいてゼロ確率制約を実現する際に不完全性を認めるとしても、この利点は持続するように見える。 不等式のない非局所性のいくつかの証明を実現する明示的な量子戦略が提供される。

As with a Bell inequality, Hardy's paradox manifests a contradiction between the prediction given by quantum theory and local-hidden variable theories. In this work, we give two generalizations of Hardy's arguments for manifesting such a paradox to an arbitrary but symmetric Bell scenario involving two observers. Our constructions recover that of Meng et al. [Phys. Rev. A. 98, 062103 (2018)] and that first discussed by Cabello [Phys. Rev. A 65, 032108 (2002)] as special cases. Among the two constructions, one can be naturally interpreted as a demonstration of the failure of the transitivity of implications (FTI). Moreover, a special case of which is equivalent to a ladder-proof-type argument for Hardy's paradox. Through a suitably generalized notion of success probability called degree of success, we provide evidence showing that the FTI-based formulation exhibits a higher degree of success compared with all other existing proposals. Moreover, this advantage seems to persist even if we allow imperfections in realizing the zero-probability constraints in such paradoxes. Explicit quantum strategies realizing several of these proofs of nonlocality without inequalities are provided.
翻訳日:2023-11-06 13:18:36 公開日:2023-11-03
# 自動ラベル生成による都市走行のための閉塞型2次元・3次元中心線検出

Occlusion-Aware 2D and 3D Centerline Detection for Urban Driving via Automatic Label Generation ( http://arxiv.org/abs/2311.02044v1 )

ライセンス: Link先を確認
David Paz, Narayanan E. Ranganatha, Srinidhi K. Srinivas, Yunchao Yao, Henrik I. Christensen(参考訳) 本研究は,高ダイナミックな都市運転シナリオ下での2次元および3次元の道路トポロジ情報を決定する戦略を探求し,特定することを目的とする。 この探索を容易にするために、100万近い自動ラベル付きデータフレームからなる実質的なデータセットを導入する。 我々の研究の重要な貢献は、自動ラベル生成プロセスと閉塞処理戦略の開発である。 この戦略は、軽度の中断から厳しい封鎖に至るまで、幅広い閉塞シナリオをモデル化するように設計されている。 さらに,複数の中心線検出法を開発し評価する包括的アブレーション研究を行った。 この分析は、様々なアプローチのパフォーマンスをベンチマークするだけでなく、これらのメソッドの解釈可能性に関する貴重な洞察を提供する。 最後に,本手法の実用性を実証し,様々なセンサ構成における適応性を評価し,実世界シナリオにおける汎用性と妥当性を強調する。 私たちのデータセットと実験モデルは公開されています。

This research work seeks to explore and identify strategies that can determine road topology information in 2D and 3D under highly dynamic urban driving scenarios. To facilitate this exploration, we introduce a substantial dataset comprising nearly one million automatically labeled data frames. A key contribution of our research lies in developing an automatic label-generation process and an occlusion handling strategy. This strategy is designed to model a wide range of occlusion scenarios, from mild disruptions to severe blockages. Furthermore, we present a comprehensive ablation study wherein multiple centerline detection methods are developed and evaluated. This analysis not only benchmarks the performance of various approaches but also provides valuable insights into the interpretability of these methods. Finally, we demonstrate the practicality of our methods and assess their adaptability across different sensor configurations, highlighting their versatility and relevance in real-world scenarios. Our dataset and experimental models are publicly available.
翻訳日:2023-11-06 13:17:50 公開日:2023-11-03
# サブセット選択によるベイズ量子回帰:後要約の視点から

Bayesian Quantile Regression with Subset Selection: A Posterior Summarization Perspective ( http://arxiv.org/abs/2311.02043v1 )

ライセンス: Link先を確認
Joseph Feldman and Daniel Kowal(参考訳) 量子回帰は、共変量が応答分布の特定のパーセンタイルに与える影響を推測する強力なツールである。 既存の方法では、興味のある各量に対して個別に条件量子を推定するか、半パラメトリックまたは非パラメトリックモデルを用いて条件分布全体を推定する。 前者はしばしば実データに対して不十分なモデルを生成し、量子単位間で情報を共有しないが、後者は複雑で制約のあるモデルによって特徴づけられ、計算的に非効率な解釈が困難である。 さらに、どちらのアプローチも量子固有部分集合の選択には適していない。 代わりに、線形量子化推定、不確実量化、およびベイズ決定解析の観点からのサブセット選択の根本的な問題を提起する。 任意のベイズ回帰モデルに対して、各モデルに基づく条件量子化に対して最適かつ解釈可能な線形推定と不確実性定量化を導出する。 提案手法は,効率良くクローズドフォームな計算を可能にし,wassersteinに基づく密度推定と密接な関係を保ちながら,四角形中心の2乗誤差損失を導入する。 広範なシミュレーション研究において,本手法は,頻繁かつベイズ的競争相手に対する質的推定精度,変数選択,推論において有意な向上を示した。 これらのツールを用いて、ノースカロライナ州の子供たちの大きな集団の教育的成果に社会的および環境的ストレスが与える質的特有な影響を識別する。

Quantile regression is a powerful tool for inferring how covariates affect specific percentiles of the response distribution. Existing methods either estimate conditional quantiles separately for each quantile of interest or estimate the entire conditional distribution using semi- or non-parametric models. The former often produce inadequate models for real data and do not share information across quantiles, while the latter are characterized by complex and constrained models that can be difficult to interpret and computationally inefficient. Further, neither approach is well-suited for quantile-specific subset selection. Instead, we pose the fundamental problems of linear quantile estimation, uncertainty quantification, and subset selection from a Bayesian decision analysis perspective. For any Bayesian regression model, we derive optimal and interpretable linear estimates and uncertainty quantification for each model-based conditional quantile. Our approach introduces a quantile-focused squared error loss, which enables efficient, closed-form computing and maintains a close relationship with Wasserstein-based density estimation. In an extensive simulation study, our methods demonstrate substantial gains in quantile estimation accuracy, variable selection, and inference over frequentist and Bayesian competitors. We apply these tools to identify the quantile-specific impacts of social and environmental stressors on educational outcomes for a large cohort of children in North Carolina.
翻訳日:2023-11-06 13:17:35 公開日:2023-11-03
# 拡散モデルを用いた量子回路合成

Quantum circuit synthesis with diffusion models ( http://arxiv.org/abs/2311.02041v1 )

ライセンス: Link先を確認
Florian F\"urrutter, Gorka Mu\~noz-Gil and Hans J. Briegel(参考訳) 量子コンピューティングは最近、トランスフォーメーション技術として登場した。 しかし、その約束された利点は、量子演算を実行可能な物理的実現に効率的に変換することに依存する。 本研究では、この変換を促進するために、生成機械学習モデル、特に拡散モデル(DM)をデノナイズする。 テキストコンディショニングを活用して、ゲートベースの量子回路内で所望の量子演算を生成する。 特に、DMは、古典的な量子力学のシミュレーションに固有の指数的オーバーヘッドをトレーニング中にサイドステップすることができる。 エンタングルメント生成とユニタリコンパイルという,2つのタスクにわたるモデルの能力を示す。 このモデルは新しい回路の生成に優れており、例えば、マスキングや編集といった典型的なdm拡張をサポートし、ターゲットの量子デバイスの制約に回路生成を調整する。 その柔軟性と一般化能力を考えると、DMは量子回路合成において重要な要素であり、実用的な応用だけでなく、理論的量子計算に関する洞察も強化する。

Quantum computing has recently emerged as a transformative technology. Yet, its promised advantages rely on efficiently translating quantum operations into viable physical realizations. In this work, we use generative machine learning models, specifically denoising diffusion models (DMs), to facilitate this transformation. Leveraging text-conditioning, we steer the model to produce desired quantum operations within gate-based quantum circuits. Notably, DMs allow to sidestep during training the exponential overhead inherent in the classical simulation of quantum dynamics -- a consistent bottleneck in preceding ML techniques. We demonstrate the model's capabilities across two tasks: entanglement generation and unitary compilation. The model excels at generating new circuits and supports typical DM extensions such as masking and editing to, for instance, align the circuit generation to the constraints of the targeted quantum device. Given their flexibility and generalization abilities, we envision DMs as pivotal in quantum circuit synthesis, enhancing both practical applications but also insights into theoretical quantum computation.
翻訳日:2023-11-06 13:17:11 公開日:2023-11-03
# パルス光学系を用いた量子重力試験

Testing Quantum Gravity using Pulsed Optomechanical Systems ( http://arxiv.org/abs/2311.02033v1 )

ライセンス: Link先を確認
Jordan Wilson-Gerow, Yanbei Chen, P.C.E. Stamp(参考訳) ファインマンにさかのぼる興味深いアイデアは、重力が「古典的」な可能性を楽しんだ場合、量子力学が大質量で崩壊し、従来の低エネルギーの量子重力とは異なる予測をもたらすというものである。 このような逸脱をテストするのに技術的に困難であったにもかかわらず、多くの実験的な提案がなされている。 ここでは、Schr\"odinger-Newton(SN)理論とCWL(Correlated Worldline)理論を考察し、パルス光力学実験によって従来の量子力学と互いに区別できることを示す。 低周波量子光学系の実験的制御がさらに推進されるまでは、理論間の判別は非常に困難である。 しかし、SNとCWLの量子力学からの離脱は、同じスケールで予測されるため、両方の代替モデルは原則として単一の実験によって探索できる。

An interesting idea, dating back to Feynman, argues that quantum mechanics may break down for large masses if one entertains the possibility that gravity can be "classical", thereby leading to predictions different from conventional low-energy quantum gravity. Despite the technical difficulty in testing such deviations, a large number of experimental proposals have been put forward due to the high level of fundamental interest. Here, we consider the Schr\"odinger-Newton (SN) theory and the Correlated Worldline (CWL) theory, and show that they can be distinguished from conventional quantum mechanics, as well as each other, by performing pulsed optomechanics experiments. For CWL specifically we develop a framework resembling the commonly used "Heisenberg-picture" treatment of coupled oscillators, allowing one to perform simple calculations for such systems without delving into the deeper path-integral formalism. We find that discriminating between the theories will be very difficult until experimental control over low frequency quantum optomechanical systems is pushed much further. However, the predicted departures of SN and CWL from quantum mechanics occur at the same scale, so both alternative models could in principle be probed by a single experiment.
翻訳日:2023-11-06 13:16:56 公開日:2023-11-03
# フォトニック結晶繊維の自己誘起透過による量子スクイーズ

Quantum squeezing via self-induced transparency in a photonic crystal fiber ( http://arxiv.org/abs/2311.02032v1 )

ライセンス: Link先を確認
M. S. Najafabadi, L. L. S\'anchez-Soto, J. F. Corney, N. Kalinin, A. A. Sorokin, G. Leuchs(参考訳) 正の$P$表現に基づく完全量子シミュレーションを行い,フォトニック結晶ファイバの自己誘起透過性により生じる量子スクイーズについて検討した。 振幅のスクイージングは、最初のパルスの領域に依存する: 領域が2\pi$であるとき、エネルギー吸収はなく、振幅のスクイージングもない。 しかし、領域が 2$\pi$ と 3$\pi$ の間にあるとき、振幅依存的なエネルギー吸収とかなりの量のスクイーズを観測する。 また, 減衰と温度の影響についても検討し, 自然放出比の増加による原子-パルス結合の増大が振幅スキーズを減少させることを示した。

We study the quantum squeezing produced in self-induced transparency in a photonic crystal fiber by performing a fully quantum simulation based on the positive $P$ representation. The amplitude squeezing depends on the area of the initial pulse: when the area is $2\pi$, there is no energy absorption and no amplitude squeezing. However, when the area is between 2$\pi$ and 3$\pi$, one observes amplitude-dependent energy absorption and a significant amount of squeezing. We also investigate the effect of damping and temperature: the results indicate that a heightened atom-pulse coupling, caused by an increase in the spontaneous emission ratio reduces the amplitude squeezing.
翻訳日:2023-11-06 13:16:33 公開日:2023-11-03
# 振付モデルにおけるサービス品質のための動的時相論理

A Dynamic Temporal Logic for Quality of Service in Choreographic Models ( http://arxiv.org/abs/2311.01414v2 )

ライセンス: Link先を確認
Carlos G. Lopez Pombo, Agust\'in E. Martinez Su\~n\'e, Emilio Tuosto(参考訳) 本稿では,g-choreographiesとCFSM(Communicating Finite State Machine)で構成されるコレオグラフィーモデルを用いて,メッセージパッシングシステムの品質(QoS)を表現・解析するフレームワークを提案する。 i) 局所計算の量的制約を規定する非機能的契約を持つcfsmsの拡張、(ii) qosを表現可能な動的時相論理、(iii) 通信プロトコルを規定するgコレオグラフィーに対するシステムの特性、(iii) 通信システムのqos特性を検証するための境界付きモデルチェックアプローチを可能にする、我々の論理の半決定可能性。

We propose a framework for expressing and analyzing the Quality of Service (QoS) of message-passing systems using a choreographic model that consists of g-choreographies and Communicating Finite State machines (CFSMs). The following are our three main contributions: (I) an extension of CFSMs with non-functional contracts to specify quantitative constraints of local computations, (II) a dynamic temporal logic capable of expressing QoS, properties of systems relative to the g-choreography that specifies the communication protocol, (III) the semi-decidability of our logic which enables a bounded model-checking approach to verify QoS property of communicating systems.
翻訳日:2023-11-06 11:33:17 公開日:2023-11-03
# FlashDecoding++:GPU上での高速な大規模言語モデル推論

FlashDecoding++: Faster Large Language Model Inference on GPUs ( http://arxiv.org/abs/2311.01282v2 )

ライセンス: Link先を確認
Ke Hong, Guohao Dai, Jiaming Xu, Qiuli Mao, Xiuhong Li, Jun Liu, Kangdi Chen, Hanyu Dong, Yu Wang(参考訳) 大規模言語モデル(LLM)が様々な領域でますます重要になっている。 しかし, LLM推論の高速化には, 1) 同期部分ソフトマックス更新という課題がまだ未解決である。 ソフトマックス演算は、各部分ソフトマックス結果間の同期更新操作を必要とし、LLMにおける注意計算のオーバーヘッドはおよそ20%である。 2)フラットGEMMのアンダーユース計算 LLM推論でGEMMを行う行列の形状は平坦であり、従来の設計ではゼロをパッドした後に計算が未使用となり、50%以上の性能損失が生じる。 (3)静的データフローによるパフォーマンス損失。 LLMのカーネル性能は、様々な入力データ機能、ハードウェア構成などに依存する。 単一かつ静的なデータフローは、LLM推論において異なる形状のGEMMに対して50.25%のパフォーマンス損失をもたらす可能性がある。 メインストリームLLMとハードウェアバックエンドをサポートする高速LLM推論エンジンであるFlashDecoding++を紹介する。 上記の課題に対処するため、FlashDecoding++は次のように創造的に提案している。 flashdecoding++は、同期を避けるために、異なる部分ソフトマックス計算のための統一されたmax値技術を導入する。 2) ダブルバッファリングによるフラットGEMM最適化 FlashDecoding++は、形状の異なるフラットなGEMMがボトルネックに直面していることを指摘している。 次に,ダブルバッファリングなどの手法を導入する。 (3)ハードウェアリソース適応によるヒューリスティックデータフロー FlashDecoding++は入力ダイナミクスを考慮して異なるハードウェアリソースを使用してデータフローをヒューリスティックに最適化する。 flashdecoding++の最適化が多岐にわたるため、flashdecoding++はnvidiaとamdの両方のgpuで最大4.86倍と2.18倍のスピードアップを達成できる。 FlashDecoding++は、主流のLLM上の最先端のLLM推論エンジンと比較して平均1.37倍の高速化を実現している。

As the Large Language Model (LLM) becomes increasingly important in various domains. However, the following challenges still remain unsolved in accelerating LLM inference: (1) Synchronized partial softmax update. The softmax operation requires a synchronized update operation among each partial softmax result, leading to ~20% overheads for the attention computation in LLMs. (2) Under-utilized computation of flat GEMM. The shape of matrices performing GEMM in LLM inference is flat, leading to under-utilized computation and >50% performance loss after padding zeros in previous designs. (3) Performance loss due to static dataflow. Kernel performance in LLM depends on varied input data features, hardware configurations, etc. A single and static dataflow may lead to a 50.25% performance loss for GEMMs of different shapes in LLM inference. We present FlashDecoding++, a fast LLM inference engine supporting mainstream LLMs and hardware back-ends. To tackle the above challenges, FlashDecoding++ creatively proposes: (1) Asynchronized softmax with unified max value. FlashDecoding++ introduces a unified max value technique for different partial softmax computations to avoid synchronization. (2) Flat GEMM optimization with double buffering. FlashDecoding++ points out that flat GEMMs with different shapes face varied bottlenecks. Then, techniques like double buffering are introduced. (3) Heuristic dataflow with hardware resource adaptation. FlashDecoding++ heuristically optimizes dataflow using different hardware resource considering input dynamics. Due to the versatility of optimizations in FlashDecoding++, FlashDecoding++ can achieve up to 4.86x and 2.18x speedup on both NVIDIA and AMD GPUs compared to Hugging Face implementations. FlashDecoding++ also achieves an average speedup of 1.37x compared to state-of-the-art LLM inference engines on mainstream LLMs.
翻訳日:2023-11-06 11:33:03 公開日:2023-11-03
# FacadeNet:選択編集による条件付きファサード合成

FacadeNet: Conditional Facade Synthesis via Selective Editing ( http://arxiv.org/abs/2311.01240v2 )

ライセンス: Link先を確認
Yiangos Georgiou and Marios Loizou and Tom Kelly and Melinos Averkiou(参考訳) 多様な視点からファサードイメージを構築するためのディープラーニングアプローチであるFacadeNetを紹介する。 本手法では,条件付きGANを用いて,所望の視点情報とともにファサードの単一ビューを取得し,異なる視点からファサードの画像を生成する。 壁などのビューに依存しないコンポーネントの構造を維持しつつ,窓やドアなどのビュー依存要素を正確に修正するために,選択的な編集モジュールを導入する。 このモジュールは、事前訓練されたビジョントランスから抽出された画像埋め込みを利用する。 本実験は, ファサード生成における最先端性能を実証し, 代替手法を超越した。

We introduce FacadeNet, a deep learning approach for synthesizing building facade images from diverse viewpoints. Our method employs a conditional GAN, taking a single view of a facade along with the desired viewpoint information and generates an image of the facade from the distinct viewpoint. To precisely modify view-dependent elements like windows and doors while preserving the structure of view-independent components such as walls, we introduce a selective editing module. This module leverages image embeddings extracted from a pre-trained vision transformer. Our experiments demonstrated state-of-the-art performance on building facade generation, surpassing alternative methods.
翻訳日:2023-11-06 11:32:39 公開日:2023-11-03
# チニシモヨロを用いたAI集積スマートグラスの高効率オンデバイス検出

Ultra-Efficient On-Device Object Detection on AI-Integrated Smart Glasses with TinyissimoYOLO ( http://arxiv.org/abs/2311.01057v2 )

ライセンス: Link先を確認
Julian Moosmann, Pietro Bonazzi, Yawei Li, Sizhen Bian, Philipp Mayer, Luca Benini, Michele Magno(参考訳) スマートグラスは、最先端のコンピューティング技術、ハードウェアアーキテクチャの高速化、そして小さなAIアルゴリズムのおかげで、急速に進歩している。 AIを小さなフォームファクターと限られたバッテリ容量を備えたスマートグラスに統合することは、満足のいくユーザーエクスペリエンスのために毎日の使用を目標とする場合、依然として難しい。 本稿では,新しい低消費電力プロセッサを活用し,スマートグラスの長時間連続動作を実現する,小型機械学習アルゴリズムの設計と実装について述べる。 リアルタイム物体検出におけるスマートグラスのエネルギー効率と遅延効率について検討する。 この目的のために、スマートグラスのプロトタイプを、新しいミリワットパワーRISC-V並列プロセッサと、ビジュアルAIのためのハードウェアアクセラレータ、通信用のBluetooth低電力モジュールを含む2つのマイクロコントローラを備えた研究プラットフォームとして設計した。 スマートグラスは、画像およびオーディオセンシングインターフェイスを含むパワーサイクリング機構を統合している。 さらに,マイクロコントローラに基づく推論用にカスタマイズされたサブミリオンパラメータを持つyoloに基づく,新たな小さなディープラーニングモデルであるtinyissimoyolo v1.3,v5,v8を開発し,エネルギーとレイテンシのためのスマートグラスによる物体検出のベンチマークを目標とした。 スマートグラスのプロトタイプの評価では、TinyissimoYOLOの17msの推論遅延と1回の推論あたりのエネルギー消費量が1.59mJであり、検出精度は許容できる。 さらに評価すると、イメージキャプチャからアルゴリズムの56msまたは18fpsの予測までのエンドツーエンドのレイテンシが、総消費電力は62.9mwで、154mahのバッテリーで9.3時間の連続実行時間に相当する。 これらの結果は、より単純なタスク(画像分類)を実行するMCUNet(TinyNAS+TinyEngine)を毎秒7.3fpsで上回る。

Smart glasses are rapidly gaining advanced functionality thanks to cutting-edge computing technologies, accelerated hardware architectures, and tiny AI algorithms. Integrating AI into smart glasses featuring a small form factor and limited battery capacity is still challenging when targeting full-day usage for a satisfactory user experience. This paper illustrates the design and implementation of tiny machine-learning algorithms exploiting novel low-power processors to enable prolonged continuous operation in smart glasses. We explore the energy- and latency-efficient of smart glasses in the case of real-time object detection. To this goal, we designed a smart glasses prototype as a research platform featuring two microcontrollers, including a novel milliwatt-power RISC-V parallel processor with a hardware accelerator for visual AI, and a Bluetooth low-power module for communication. The smart glasses integrate power cycling mechanisms, including image and audio sensing interfaces. Furthermore, we developed a family of novel tiny deep-learning models based on YOLO with sub-million parameters customized for microcontroller-based inference dubbed TinyissimoYOLO v1.3, v5, and v8, aiming at benchmarking object detection with smart glasses for energy and latency. Evaluations on the prototype of the smart glasses demonstrate TinyissimoYOLO's 17ms inference latency and 1.59mJ energy consumption per inference while ensuring acceptable detection accuracy. Further evaluation reveals an end-to-end latency from image capturing to the algorithm's prediction of 56ms or equivalently 18 fps, with a total power consumption of 62.9mW, equivalent to a 9.3 hours of continuous run time on a 154mAh battery. These results outperform MCUNet (TinyNAS+TinyEngine), which runs a simpler task (image classification) at just 7.3 fps per second.
翻訳日:2023-11-06 11:32:30 公開日:2023-11-03
# オーディエンスを言語モデルでシミュレートした対人コミュニケーションの改善

Improving Interpersonal Communication by Simulating Audiences with Language Models ( http://arxiv.org/abs/2311.00687v2 )

ライセンス: Link先を確認
Ryan Liu and Howard Yen and Raja Marjieh and Thomas L. Griffiths and Ranjay Krishna(参考訳) 目標を達成するために、他人とどのようにコミュニケーションするか? 事前の経験や他の人からのアドバイスを使い、どのように受けられるかを予測することで候補発話を構築します。 しかしながら、私たちの経験は限定的で偏りがあり、潜在的な結果に対する推論は困難かつ認知的に困難です。 本稿では,大規模言語モデル(llm)シミュレーションを活用してコミュニケーションを改善する方法について検討する。 我々は,個人が目標達成を目標としてオーディエンスとコミュニケーションしているシナリオの入力として,explore-generate-simulate(egs)フレームワークを提案する。 egs (1) シナリオに関連する多様なアドバイスセットを作成し、(2)アドバイスのサブセットに基づいて条件付けされたコミュニケーション候補を生成し、(3)最適な候補とアドバイスの両方を決定するために様々なオーディエンスからの反応をシミュレートする。 対人コミュニケーションの10の基本的なプロセスにまたがる8つのシナリオについて評価した。 それぞれのシナリオにおいて、候補とベースラインにまたがる人間の評価のデータセットを収集し、フレームワークの選択した候補が、Chain-of-Thoughtなどの一般的な生成メカニズムよりも好ましいことを示す。 また,8つのシナリオのうち5つのシナリオにおいて,オーディエンスシミュレーションが人間と合理的に高い合意を得ることがわかった。 最後に,Webフォーラム上でユーザが記述した実世界のシナリオに適用することで,フレームワークの汎用性を実証する。 評価と実演を通じて、ESGは様々な状況における目標指向コミュニケーションの有効性と成果を高め、コミュニケーションや意思決定プロセスの革新化における大規模言語モデルの適用に新たな可能性を開く。

How do we communicate with others to achieve our goals? We use our prior experience or advice from others, or construct a candidate utterance by predicting how it will be received. However, our experiences are limited and biased, and reasoning about potential outcomes can be difficult and cognitively challenging. In this paper, we explore how we can leverage Large Language Model (LLM) simulations to help us communicate better. We propose the Explore-Generate-Simulate (EGS) framework, which takes as input any scenario where an individual is communicating to an audience with a goal they want to achieve. EGS (1) explores the solution space by producing a diverse set of advice relevant to the scenario, (2) generates communication candidates conditioned on subsets of the advice, and (3) simulates the reactions from various audiences to determine both the best candidate and advice to use. We evaluate the framework on eight scenarios spanning the ten fundamental processes of interpersonal communication. For each scenario, we collect a dataset of human evaluations across candidates and baselines, and showcase that our framework's chosen candidate is preferred over popular generation mechanisms including Chain-of-Thought. We also find that audience simulations achieve reasonably high agreement with human raters across 5 of the 8 scenarios. Finally, we demonstrate the generality of our framework by applying it to real-world scenarios described by users on web forums. Through evaluations and demonstrations, we show that EGS enhances the effectiveness and outcomes of goal-oriented communication across a variety of situations, thus opening up new possibilities for the application of large language models in revolutionizing communication and decision-making processes.
翻訳日:2023-11-06 11:31:57 公開日:2023-11-03
# 光電気化学水素製造のためのCu2O光カソードの非平衡グリーン関数シミュレーション

Nonequilibrium Green's Function simulation of Cu2O photocathodes for photoelectrochemical hydrogen production ( http://arxiv.org/abs/2311.00630v2 )

ライセンス: Link先を確認
Lassi H\"allstr\"om, Ilkka Tittonen(参考訳) 本研究では,光電気化学(PEC)水分裂セルの半導体電極の非平衡グリーン関数(NEGF)の定式化に基づくシミュレーションを行う。 単純なPECセルの性能は半古典的ドリフト拡散理論で十分に説明できるが、薄膜セルやナノ構造への関心の高まりは、これらのデバイスにおける電荷キャリアのダイナミクスに影響を与える量子現象を捉える理論的な処理を必要とする。 具体的には, p型Cu2O電極について検討し, 生成光電流に対するバイアス電圧, 反応速度およびCu2O層の厚さの影響について検討した。 NEGF方程式は、ポアソン方程式からの静電ポテンシャル、日光誘起光子散乱、水分解反応の駆動に必要な化学的過大ポテンシャルと、自己整合的に解かれる。 NEGFシミュレーションは, 電荷キャリア密度および半導体電極内部の対応する電流のエネルギー分解溶液をナノスケールで提供しながら, ボルタンメトリーおよびインピーダンス分光測定による実験結果を正確に再現することを示した。

In this work we present a simulation of the semiconductor electrodes of photoelectrochemical (PEC) water splitting cells based on the nonequilibrium Green's function (NEGF) formalism. While the performance of simple PEC cells can be adequately explained with semi-classical drift-diffusion theory, the increasing interest towards thin film cells and nanostructures in general requires theoretical treatment that can capture the quantum phenomena influencing the charge carrier dynamics in these devices. Specifically, we study a p-type Cu2O electrode and examine the influence of the bias voltage, reaction kinetics and the thickness of the Cu2O layer on the generated photocurrent. The NEGF equations are solved in a self-consistent manner with the electrostatic potential from Poisson's equation, sunlight induced photon scattering and the chemical overpotential required to drive the water splitting reaction. We show that the NEGF simulation accurately reproduces experimental results from both voltammetry and impedance spectroscopy measurements, while providing an energy resolved solution of the charge carrier densities and corresponding currents inside the semiconductor electrode at nanoscale.
翻訳日:2023-11-06 11:31:27 公開日:2023-11-03