このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230715となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 低リソース言語のためのコード要約に基づく多言語適応型知識集約 Multilingual Adapter-based Knowledge Aggregation on Code Summarization for Low-Resource Languages ( http://arxiv.org/abs/2307.07854v1 ) ライセンス: Link先を確認 | Iman Saberi, Fatemeh Fard and Fuxiang Chen | (参考訳) 多言語微調整(多言語事前学習言語モデル)により、下流タスクのパフォーマンスが向上することが示されている。
しかし、異なるプログラミング言語は異なる構造的特性を持つ可能性があり、したがってモデルの学習や微調整は、多言語データセットを用いて意図した性能を低下させる可能性がある。
本研究では,プログラミング言語のさまざまな側面をターゲットとする低リソースプログラミング言語であるRubyに活用する,新しいモジュラーコンポーネントアーキテクチャであるAdvFusionを提案する。
その結果、advfusionは、異なるプログラミング言語から有用な機能を効率的に抽出でき、コード要約タスクにおいて、既存の最先端のマルチリンガルの微調整を12%上回っています。 Multilingual fine-tuning (of a multilingual Pre-trained Language Model) has shown to improve performance of downstream tasks. However, it was observed that different programming languages may have different structural properties, and thus the learning or fine-tuning of a model may be sub-optimal or even degrade the intended performance by using a multilingual dataset. In this study, we proposed a new modular component architecture, AdvFusion, that leverages the different aspects of programming languages for a target popular low-resource programming language, Ruby. Our result shows that AdvFusion can extract useful features from different programming languages efficiently, and it outperforms the existing state-of-the-art multilingual fine-tuning by 12% on the Code Summarization task. | 翻訳日:2023-10-23 17:23:23 公開日:2023-07-15 |
# メタヒューリスティック検索による抽象交通シーン仕様の強化 Concretization of Abstract Traffic Scene Specifications Using Metaheuristic Search ( http://arxiv.org/abs/2307.07826v1 ) ライセンス: Link先を確認 | Aren A. Babikian, Oszk\'ar Semer\'ath and D\'aniel Varr\'o | (参考訳) AV-under-testを抽象的なシナリオ仕様で捉え,現実的な交通シミュレータで検討することで,既存の自動運転車の安全保証アプローチがシステムレベルの安全評価を行う。
avsのシナリオベーステストへの第一歩として、トラフィックシナリオの最初のシーンを具体化する必要がある。
この文脈では、シーンの強調化チャレンジは抽象的な交通シーンの高レベルな仕様を入力として、車両の各属性(例えば位置や速度)に対して正確な数値が定義される具体的なシーンにそれらをマッピングすることを目的としている。
本稿では,現実的な道路地図上に車両を配置して,不整合の静的検出もサポートする表現的シーン仕様言語によって定義された抽象的制約を満足させる交通シーンの促進手法を提案する。
次に、抽象的制約を対応する数値的制約にマッピングし、目的関数をカスタマイズ可能なメタヒューリスティック探索と制約集約戦略によって解決する。
我々は,3つの現実的な道路地図を用いて,最先端の景観ツールの3つのバリエーションとアプローチの8つの構成を比較し,その拡張性を評価する実験を行った。 Existing safety assurance approaches for autonomous vehicles (AVs) perform system-level safety evaluation by placing the AV-under-test in challenging traffic scenarios captured by abstract scenario specifications and investigated in realistic traffic simulators. As a first step towards scenario-based testing of AVs, the initial scene of a traffic scenario must be concretized. In this context, the scene concretization challenge takes as input a high-level specification of abstract traffic scenes and aims to map them to concrete scenes where exact numeric initial values are defined for each attribute of a vehicle (e.g. position or velocity). In this paper, we propose a traffic scene concretization approach that places vehicles on realistic road maps such that they satisfy an extensible set of abstract constraints defined by an expressive scene specification language which also supports static detection of inconsistencies. Then, abstract constraints are mapped to corresponding numeric constraints, which are solved by metaheuristic search with customizable objective functions and constraint aggregation strategies. We conduct a series of experiments over three realistic road maps to compare eight configurations of our approach with three variations of the state-of-the-art Scenic tool, and to evaluate its scalability. | 翻訳日:2023-10-23 17:23:10 公開日:2023-07-15 |
# 経済発展の重要な要素としての南アフリカのソフトウェア産業:パイプドリームか可能性か The South African Software Industry as a Key Component of Economic Development: Pipedream or Possibility ( http://arxiv.org/abs/2307.14485v1 ) ライセンス: Link先を確認 | Patrick Mukala | (参考訳) 情報通信部門は間違いなく、人々の生活様式を変える上で重要な役割を担っている。
私たちの生活のほぼすべての領域は、新しい情報とコミュニケーション技術の存在と利用に影響を受けています。
この点において、多くの研究者の関心は、これらの技術が経済成長と発展に与える影響や大きな影響に惹かれてきた。
南アフリカの歴史は、成功した経済環境の出現に大きな障害となる可能性があるいくつかの欠点があったが、その経済とアフリカにおけるアフリカの他の国に対する役割に関する国家の実態は、アフリカにおける新興経済力の重要な例である。
本稿では,ICTが南アフリカの経済成長において果たした重要な役割,特にソフトウェア産業の経済的影響の重要性について考察する。
heavin et al. (2003) が使用しているフレームワークを利用してアイルランドのソフトウェア産業を調査し、内在的要因である国内、企業、個人がソフトウェア産業に与える影響を分析し、南アフリカの経済成長に影響を与えている。 The Information and Communication sector has undoubtedly played a pivotal role in changing the way people live nowadays. Almost every area of our lives is affected by the presence and the use of the new information and communication technologies. In this regard, many researchers' attention has been attracted by the influence or the significant impact of these technologies on economic growth and development. Although the history of South Africa has had some drawbacks that could constitute a big obstacle to the emergence of a successful economic environment, the actual status of the country regarding its economy and the role that it plays in Africa towards the rest of the African countries is a vital example of an emerging economic force in Africa. This paper examines the crucial role that ICT has played and is still playing in the South African economy growth and more specifically the significance of the economic effects of the software industry. It makes use of the framework used by Heavin et al. (2003) to investigate the Irish software industry in order to analyze the impact of endogenous factors -- national, enterprise and individual -- on the software industry and its implication on the economic growth in South Africa. | 翻訳日:2023-10-23 16:10:18 公開日:2023-07-15 |
# コンゴ民主共和国におけるキャッシュレス取引のためのe-walletシステムのためのサービス指向アーキテクチャの実装 Implementation of a Service-Oriented Architecture for a e-WALLET System for Cashless Transactions in the Democratic Republic of Congo ( http://arxiv.org/abs/2308.00689v1 ) ライセンス: Link先を確認 | Patrick Mukala | (参考訳) コンゴ民主共和国はアフリカの中心部で眠っている巨人である。
金、ダイヤモンド、コルタン、銅、広大なアフリカの森林、印象的な水資源が豊富な天然資源を産出しているが、それでも地球上で最も貧しい国の1つと考えられている。
コンゴの人々は極端に貧乏な生活を続けており、経済は長い間、これらの資源に何も示していない。
生き残るために、コンゴの人々は収入を得るために様々な活動に従事し、ほとんどの家族は仕事や個人事業を行う家族や親戚からの「連帯助成金」に頼っている。
これらの家族のほとんどが未成年のままである。
信頼できる金融機関や民間金融機関がないため、全金融取引の90%近くは現金ベースである。
しかし、過去数年間の銀行数の増加に伴い、キャッシュレス取引を奨励・実施する可能性がある。
本稿では,eWalletシステムの設計におけるサービス指向アーキテクチャ手法の実装を実演する。
典型的なシナリオは、エコシステムでコンテキスト化されるように実装されるシステムの主要なコンポーネントを強調するために提示されている。
ビジネスプロセスからシステムのための技術的アーキテクチャやサービスモデルに至るまで、一連のモデルはソリューションのあらゆるステップを表現するために開発されました。
第1節では,論文の簡単な紹介,第2節ではeWalletの一般的な記述と文脈化,第3節ではシナリオの選択したシナリオの説明,第4節ではシナリオのエコシステムについて,第5節ではシナリオについて記述する。 The Democratic Republic of Congo is a sleeping giant at the heart of Africa. Though endowed with incredible natural resources spanning from significant reserves of gold, diamond, coltan, copper to vast African forests and impressive water resources, it is still considered as one of the poorest countries on the planet. For a long time, its economy has had nothing to show for all these resources as the Congolese people continue to live in extreme poverty. To survive, the Congolese people engage in a range of activities to generate income and most families rely on 'solidarity grants' from family members and relatives that either work or conduct a personal business. Most of these families remain unbanked. Due to the absence of reliable and private financial institutions, almost 90% of all financial transactions are cash-based. However, as the number of banks increases throughout the past few years, there is a possibility to encourage and perform cashless transactions. In this paper, we demonstrate an implementation of a Service-Oriented Architecture approach in the design of a eWallet system. A typical scenario has been presented to highlight the major components of the system to be implemented as contextualized in the ecosystem. A series of models, from the business processes to the technical architecture and service model for the system, has been developed to represent every step of the solution. The paper is structured as follows: In section 1, we give a brief introduction of the paper, section 2 gives a generic description and contextualization of eWallet, section 3 gives a description of the scenario as chosen for this case study, section 4 describes the ecosystem for the scenario, section 5 | 翻訳日:2023-10-23 15:43:58 公開日:2023-07-15 |
# テキスト間分類と生成におけるBradley-Terry選好モデルによる高速適応 Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation ( http://arxiv.org/abs/2308.07929v1 ) ライセンス: Link先を確認 | Victor Gallego | (参考訳) 近年、CLIPやStable Diffusionのような大規模なマルチモーダルモデルは、基礎とアプリケーションの両方で大きな成功を収めた。
しかし、これらのモデルがパラメータサイズや計算要求を増大させるにつれ、ユーザーは特定のタスクや好みをパーソナライズすることがより困難になる。
そこで本研究では,検索した画像や生成した画像をユーザの好みに合わせることで,従来のモデルを特定の人間の好みのセットに適応させる問題に対処する。
本稿では,ブラッドレー・テリー選好モデルを用いて,少ない例と最小限の計算資源で,元のモデルを効率的に微調整する高速適応手法を開発した。
このフレームワークの能力の広範な証拠は、報酬モデルとしての嗜好予測や生成タスクを含む、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。 Recently, large multimodal models, such as CLIP and Stable Diffusion have experimented tremendous successes in both foundations and applications. However, as these models increase in parameter size and computational requirements, it becomes more challenging for users to personalize them for specific tasks or preferences. In this work, we address the problem of adapting the previous models towards sets of particular human preferences, aligning the retrieved or generated images with the preferences of the user. We leverage the Bradley-Terry preference model to develop a fast adaptation method that efficiently fine-tunes the original model, with few examples and with minimal computing resources. Extensive evidence of the capabilities of this framework is provided through experiments in different domains related to multimodal text and image understanding, including preference prediction as a reward model, and generation tasks. | 翻訳日:2023-08-20 16:29:59 公開日:2023-07-15 |
# アクティブMDP学習による確率的ブラックボックスチェック Probabilistic Black-Box Checking via Active MDP Learning ( http://arxiv.org/abs/2308.07930v1 ) ライセンス: Link先を確認 | Junya Shijubo, Masaki Waga, Kohei Suenaga | (参考訳) 本稿では,組込みシステムで頻繁に発生する確率的ブラックボックスシステムをテストする新しい手法を提案する。
我々の手法は確率的行動に対処するために確立されたブラックボックスチェック(BBC)技術を強化する。
従来のbbcでは、ブラックボックスの動作を近似するオートマトンを構築するための学習フェーズ、学習されたオートマトンからカウンターサンプルを識別する合成フェーズ、得られた候補のカウンターサンプルと学習したオートマトンを元のブラックボックスシステムに対して検証する検証フェーズという3つのフェーズを実行することで、システムの仕様を破る入力を反復的に識別する。
提案手法であるprobbbcは,(1)学習段階でアクティブマルコフ決定過程(mdp)学習法,(2)合成段階における確率的モデルチェック,(3)検証段階における統計的仮説検証を用いて,従来のbbcアプローチを洗練する。
例えば、統計的仮説検定とmdp学習手順は、ブラックボックスシステムの観測に関する情報を相互に交換する。
実験の結果、probbbcは既存の手法、特に観測が限られているシステムよりも優れていることが示唆された。 We introduce a novel methodology for testing stochastic black-box systems, frequently encountered in embedded systems. Our approach enhances the established black-box checking (BBC) technique to address stochastic behavior. Traditional BBC primarily involves iteratively identifying an input that breaches the system's specifications by executing the following three phases: the learning phase to construct an automaton approximating the black box's behavior, the synthesis phase to identify a candidate counterexample from the learned automaton, and the validation phase to validate the obtained candidate counterexample and the learned automaton against the original black-box system. Our method, ProbBBC, refines the conventional BBC approach by (1) employing an active Markov Decision Process (MDP) learning method during the learning phase, (2) incorporating probabilistic model checking in the synthesis phase, and (3) applying statistical hypothesis testing in the validation phase. ProbBBC uniquely integrates these techniques rather than merely substituting each method in the traditional BBC; for instance, the statistical hypothesis testing and the MDP learning procedure exchange information regarding the black-box system's observation with one another. The experiment results suggest that ProbBBC outperforms an existing method, especially for systems with limited observation. | 翻訳日:2023-08-20 16:18:16 公開日:2023-07-15 |
# シーケンスベースナノボディ-抗原結合予測 Sequence-Based Nanobody-Antigen Binding Prediction ( http://arxiv.org/abs/2308.01920v1 ) ライセンス: Link先を確認 | Usama Sardar, Sarwan Ali, Muhammad Sohaib Ayub, Muhammad Shoaib, Khurram Bashir, Imdad Ullah Khan, Murray Patterson | (参考訳) ナノボディ(nb)は、ラクダやサメに自然に存在する重い鎖のみの抗体に由来する単量体重鎖の断片である。
かなり小さいサイズ (~3-4 nm; 13 kda) と良好な生物物理特性により、組み換え生産のための魅力的なターゲットとなっている。
さらに、毒素、化学薬品、バクテリア、ウイルスなどの特定の抗原に選択的に結合する能力は、細胞生物学、構造生物学、医学的診断、がんやその他の重篤な疾患の治療における治療薬の強力なツールとなる。
しかし、ナノボディ生産における重要な課題は、多くの抗原に対してナノボディが利用できないことである。
ターゲット抗原の潜在的なナノボディをスクリーニングするためにいくつかの計算手法が提案されているが、3d構造に依存するため、その実用性は極めて制限されている。
さらに、ナノボディ抗原相互作用(結合)の予測は、時間と労力のかかる作業である。
本研究の目的は、シーケンスデータのみに基づいてナノボディ抗原結合を予測する機械学習手法の開発である。
ナノボディ-抗原結合と非結合データの包括的データセットをキュレートし,gapped k-mersに基づく埋め込み法を考案し,ナノボディと抗原の配列のみに基づいて結合を予測した。
提案手法は結合予測において最大90%の精度を達成し,広く用いられている計算ドッキング手法に比べてはるかに効率的である。 Nanobodies (Nb) are monomeric heavy-chain fragments derived from heavy-chain only antibodies naturally found in Camelids and Sharks. Their considerably small size (~3-4 nm; 13 kDa) and favorable biophysical properties make them attractive targets for recombinant production. Furthermore, their unique ability to bind selectively to specific antigens, such as toxins, chemicals, bacteria, and viruses, makes them powerful tools in cell biology, structural biology, medical diagnostics, and future therapeutic agents in treating cancer and other serious illnesses. However, a critical challenge in nanobodies production is the unavailability of nanobodies for a majority of antigens. Although some computational methods have been proposed to screen potential nanobodies for given target antigens, their practical application is highly restricted due to their reliance on 3D structures. Moreover, predicting nanobodyantigen interactions (binding) is a time-consuming and labor-intensive task. This study aims to develop a machine-learning method to predict Nanobody-Antigen binding solely based on the sequence data. We curated a comprehensive dataset of Nanobody-Antigen binding and nonbinding data and devised an embedding method based on gapped k-mers to predict binding based only on sequences of nanobody and antigen. Our approach achieves up to 90% accuracy in binding prediction and is significantly more efficient compared to the widely-used computational docking technique. | 翻訳日:2023-08-14 02:07:08 公開日:2023-07-15 |
# e-bikeの利用拡大:機械学習によるアプローチ The Growth of E-Bike Use: A Machine Learning Approach ( http://arxiv.org/abs/2308.02034v1 ) ライセンス: Link先を確認 | Aditya Gupta, Samarth Chitgopekar, Alexander Kim, Joseph Jiang, Megan Wang, Christopher Grattoni | (参考訳) 本稿では,電動自転車(eバイク)とその米国における政策立案者への影響について紹介する。
Eバイクは高速でエコフレンドリーな交通手段として人気がある。
持続可能なエネルギー計画への取り組みとして、eバイクの成長と影響を理解することが政策立案者にとって不可欠である。
私たちの数学的モデリングは、eバイクの価値とその将来における役割についての洞察を提供します。
我々のモデルは、2006年1月から2022年12月までの歴史的な販売データに基づいてトレーニングされ、2025年には130万台、2028年には2.113万台と予測された。
e-bikeの利用に寄与する要因を評価するために,ランダムフォレスト回帰モデルを用いた。
電子自転車販売の成長に影響を及ぼす最も重要な要因は、個人所得と人気である。
さらに,eバイクの環境・健康への影響について検討した。
モンテカルロシミュレーションにより,e-bikeによる二酸化炭素排出量の削減と,e-bikingによる燃焼カロリーの推定を行った。
その結果,2022年には米国でのEバイク使用量が15,737.82キログラム削減された。
さらに同年、電動自転車利用者は活動を通じて約716,630.727キロカロリーを燃やした。
我々の研究は、持続可能な輸送ソリューションとしてのeバイクの可能性を強調し、政策立案者に貴重な洞察を提供する。
成長要因を理解し、環境と健康の便益を定量化することによって、政策立案者は将来のエネルギー・輸送戦略にeバイクを統合するためのインフォームドな意思決定を行うことができる。 We present our work on electric bicycles (e-bikes) and their implications for policymakers in the United States. E-bikes have gained significant popularity as a fast and eco-friendly transportation option. As we strive for a sustainable energy plan, understanding the growth and impact of e-bikes is crucial for policymakers. Our mathematical modeling offers insights into the value of e-bikes and their role in the future. Using an ARIMA model, a supervised machine-learning algorithm, we predicted the growth of e-bike sales in the U.S. Our model, trained on historical sales data from January 2006 to December 2022, projected sales of 1.3 million units in 2025 and 2.113 million units in 2028. To assess the factors contributing to e-bike usage, we employed a Random Forest regression model. The most significant factors influencing e-bike sales growth were disposable personal income and popularity. Furthermore, we examined the environmental and health impacts of e-bikes. Through Monte Carlo simulations, we estimated the reduction in carbon emissions due to e-bike use and the calories burned through e-biking. Our findings revealed that e-bike usage in the U.S. resulted in a reduction of 15,737.82 kilograms of CO2 emissions in 2022. Additionally, e-bike users burned approximately 716,630.727 kilocalories through their activities in the same year. Our research provides valuable insights for policymakers, emphasizing the potential of e-bikes as a sustainable transportation solution. By understanding the growth factors and quantifying the environmental and health benefits, policymakers can make informed decisions about integrating e-bikes into future energy and transportation strategies. | 翻訳日:2023-08-14 01:58:15 公開日:2023-07-15 |
# 物理形ニューラルネットワークによる圧縮機カスケード流れの研究 Investigation of compressor cascade flow based on physics-informed neural networks ( http://arxiv.org/abs/2308.04501v1 ) ライセンス: Link先を確認 | Zhihui Li, Francesco Montomoli, Sanjiv Sharma | (参考訳) 本研究では,新しい物理学インフォームドニューラルネットワーク(pinns)を用いて,圧縮器カスケードの流れ場を初めて予測する。
このアプローチは、前方および逆問題の両方にナビエ・ストークス方程式を取り入れた二次元問題で実証される。
前方問題では、PINNは圧縮機の流れ場を効果的に予測する。
ディープニューラルネットワーク(DNN)に対する重要な利点は、PINNモデルが関連する量間の物理的関係を組み込んでおり、より正確な予測をもたらすことである。
PINNは、部分境界条件のない逆問題を扱う場合、従来のCFDアプローチよりも明らかな利点を示す。
PINNは部分速度ベクトルと壁圧情報のみに基づいて圧縮機のカスケードの流れ場を再構築することに成功した。
この研究は、PINNがターボ機械設計者に現在の支配的なCFD法に代わる有望な代替手段を提供し、DNNよりも高い精度を提供するという説得力のある証拠を提供する。 In this study, we utilize the emerging Physics Informed Neural Networks (PINNs) approach for the first time to predict the flow field of a compressor cascade. The approach is demonstrated on a two-dimensional problem, incorporating Navier-Stokes equations in both the forward and inverse problems. In the forward problem, PINNs effectively predict the flow field of the compressor. The key advantage over Deep Neural Networks (DNNs) is that the PINNs model incorporates a physical relationship between the relevant quantities, resulting in more precise predictions. PINNs show obvious advantages over the traditional CFD approaches when dealing with inverse problems in the absence of partial boundary conditions. PINNs successfully reconstruct the flow field of the compressor cascade solely based on partial velocity vectors and wall pressure information. This research provides compelling evidence that PINNs offer turbomachinery designers a promising alternative to the current dominant CFD methods, delivering higher accuracy compared to DNNs. | 翻訳日:2023-08-14 00:19:47 公開日:2023-07-15 |
# エクササイズ代表性と情報性に基づく知識グラフ強化知的指導システム Knowledge Graph Enhanced Intelligent Tutoring System Based on Exercise Representativeness and Informativeness ( http://arxiv.org/abs/2307.15076v1 ) ライセンス: Link先を確認 | Linqing Li and Zhifeng Wang | (参考訳) 近年,知識グラフに基づく推薦アルゴリズムが研究者の間で注目を集めている。
しかし、これらのアルゴリズムは単一の関係を持つ知識グラフのみを考慮し、運動代表性や情報性といった運動豊富な特徴を効果的にモデル化しない。
そこで本稿では,この2つの課題に対処すべく,知識グラフによる代表性と情報性フレームワークを提案する。
このフレームワークは、4つの複雑なコンポーネントとニューラル注意認知診断モデルと呼ばれる新しい認知診断モデルで構成されている。
これらの構成要素は、情報化成分、運動表現成分、知識重要成分、運動代表成分を含む。
情報度成分は、各質問の情報値を評価し、最も高い運動情報度を示す候補質問セットを特定する。
さらに、知識重要成分の入力として、スキル埋め込みを用いる。
この成分は、一次元知識グラフを4つのクラス関係を通して多次元知識グラフに変換し、新しさと人気度に基づいてスキル重要度を算出する。
その後、エクササイズ代表性成分は、テストされた質問セットの候補質問セットから質問を選択するために、エクササイズ重み知識カバレッジを組み込む。
最後に、認知診断モデルは、運動表現とスキル重要度を利用して、テストセット上での学生のパフォーマンスを予測し、その知識状態を推定する。
選択戦略の有効性を評価するため,2つの公開教育データセットに対して広範な実験を行った。
実験の結果,本フレームワークは学生に適切なエクササイズを推奨できることが示され,生徒のパフォーマンスが向上した。 Presently, knowledge graph-based recommendation algorithms have garnered considerable attention among researchers. However, these algorithms solely consider knowledge graphs with single relationships and do not effectively model exercise-rich features, such as exercise representativeness and informativeness. Consequently, this paper proposes a framework, namely the Knowledge-Graph-Exercise Representativeness and Informativeness Framework, to address these two issues. The framework consists of four intricate components and a novel cognitive diagnosis model called the Neural Attentive cognitive diagnosis model. These components encompass the informativeness component, exercise representation component, knowledge importance component, and exercise representativeness component. The informativeness component evaluates the informational value of each question and identifies the candidate question set that exhibits the highest exercise informativeness. Furthermore, the skill embeddings are employed as input for the knowledge importance component. This component transforms a one-dimensional knowledge graph into a multi-dimensional one through four class relations and calculates skill importance weights based on novelty and popularity. Subsequently, the exercise representativeness component incorporates exercise weight knowledge coverage to select questions from the candidate question set for the tested question set. Lastly, the cognitive diagnosis model leverages exercise representation and skill importance weights to predict student performance on the test set and estimate their knowledge state. To evaluate the effectiveness of our selection strategy, extensive experiments were conducted on two publicly available educational datasets. The experimental results demonstrate that our framework can recommend appropriate exercises to students, leading to improved student performance. | 翻訳日:2023-08-06 11:33:42 公開日:2023-07-15 |
# 専門的観察による画素からの学習 Learning from Pixels with Expert Observations ( http://arxiv.org/abs/2306.13872v2 ) ライセンス: Link先を確認 | Minh-Huy Hoang, Long Dinh, Hai Nguyen | (参考訳) 強化学習(RL)では、スパース報酬は大きな課題となる。
幸いなことに、この問題を解決するために専門家のアクションを利用することができます。
しかし、明示的な専門家の行動を得ることはコストがかかり、専門家の観察はより容易に得られる。
本稿では,ロボット操作作業における専門的な観察から学ぶための新しいアプローチを提案する。
具体的には,目標条件付きrlエージェントの中間視覚目標として専門家観察を用い,一連の目標を連続的に達成することでタスクを完了可能にする。
シミュレーションにおいて,5つの難易度ブロック構築課題において,本手法の有効性を実証し,2つの最先端エージェントと組み合わせることで,トレーニング中の専門家行動の4~20分の1を要しながら,その性能を大幅に向上できることを示す。
さらに,本手法は階層的ベースラインよりも優れている。 In reinforcement learning (RL), sparse rewards can present a significant challenge. Fortunately, expert actions can be utilized to overcome this issue. However, acquiring explicit expert actions can be costly, and expert observations are often more readily available. This paper presents a new approach that uses expert observations for learning in robot manipulation tasks with sparse rewards from pixel observations. Specifically, our technique involves using expert observations as intermediate visual goals for a goal-conditioned RL agent, enabling it to complete a task by successively reaching a series of goals. We demonstrate the efficacy of our method in five challenging block construction tasks in simulation and show that when combined with two state-of-the-art agents, our approach can significantly improve their performance while requiring 4-20 times fewer expert actions during training. Moreover, our method is also superior to a hierarchical baseline. | 翻訳日:2023-07-30 04:31:55 公開日:2023-07-15 |
# 評価的言語表現を用いた3方向決定 Three-way Decisions with Evaluative Linguistic Expressions ( http://arxiv.org/abs/2307.11766v1 ) ライセンス: Link先を確認 | Stefania Boffa and Davide Ciucci | (参考訳) 本稿では, 中・中・短・大まか・大まか・良・等といった自然言語の表現である,いわゆる評価言語表現を用いて,受理・拒絶・非コミットの領域を構築する三方向決定の言語解釈を提案する。
本研究は,三方向決定と評価的言語表現の理論という2つの異なる研究分野の新たな関係を浮き彫りにする。 We propose a linguistic interpretation of three-way decisions, where the regions of acceptance, rejection, and non-commitment are constructed by using the so-called evaluative linguistic expressions, which are expressions of natural language such as small, medium, very short, quite roughly strong, extremely good, etc. Our results highlight new connections between two different research areas: three-way decisions and the theory of evaluative linguistic expressions. | 翻訳日:2023-07-30 04:16:36 公開日:2023-07-15 |
# 精神モデルによるxai支援意思決定における信頼感の測定 Measuring Perceived Trust in XAI-Assisted Decision-Making by Eliciting a Mental Model ( http://arxiv.org/abs/2307.11765v1 ) ライセンス: Link先を確認 | Mohsen Abbaspour Onari, Isel Grau, Marco S. Nobile, and Yingqian Zhang | (参考訳) この実証研究は、ユーザが認識した信頼を、説明可能な人工知能(XAI)モデルで測定する新しい手法を提案する。
そのため、ユーザのメンタルモデルはファジィ認知マップ(fcms)を用いて誘導される。
まず、解釈可能な機械学習(ML)モデルを用いて、新型コロナウイルスの疑いのある患者をポジティブまたはネガティブなケースに分類する。
そして、医療専門家(ME)は、その知識に基づいて診断判断タスクを行い、XAIモデルが提供する予測と解釈を行う。
理解された信頼度に対する解釈の影響を評価するため,MESによる説明満足度特性の評価を行った。
そして、それらは互いに影響し合い、最終的には信頼感に影響を及ぼすというfcmの概念と見なされる。
さらに、MESの精神的主観性を考慮するために、ファジィ言語変数を用いて影響の強さを決定する。
FCMの定常状態に達した後、各MEの認識信頼度を測定するための定量値を得る。
その結果、定量化された値は、mesがxaiモデルを信頼するか不信であるかを判断できることがわかった。
診断タスクの完了時に、定量化値とMEsの性能を比較して分析する。 This empirical study proposes a novel methodology to measure users' perceived trust in an Explainable Artificial Intelligence (XAI) model. To do so, users' mental models are elicited using Fuzzy Cognitive Maps (FCMs). First, we exploit an interpretable Machine Learning (ML) model to classify suspected COVID-19 patients into positive or negative cases. Then, Medical Experts' (MEs) conduct a diagnostic decision-making task based on their knowledge and then prediction and interpretations provided by the XAI model. In order to evaluate the impact of interpretations on perceived trust, explanation satisfaction attributes are rated by MEs through a survey. Then, they are considered as FCM's concepts to determine their influences on each other and, ultimately, on the perceived trust. Moreover, to consider MEs' mental subjectivity, fuzzy linguistic variables are used to determine the strength of influences. After reaching the steady state of FCMs, a quantified value is obtained to measure the perceived trust of each ME. The results show that the quantified values can determine whether MEs trust or distrust the XAI model. We analyze this behavior by comparing the quantified values with MEs' performance in completing diagnostic tasks. | 翻訳日:2023-07-30 04:16:27 公開日:2023-07-15 |
# $\text{efo}_{k}$-cqa:集合演算を超えた知識グラフの複雑なクエリ応答に向けて $\text{EFO}_{k}$-CQA: Towards Knowledge Graph Complex Query Answering beyond Set Operation ( http://arxiv.org/abs/2307.13701v1 ) ライセンス: Link先を確認 | Hang Yin, Zihao Wang, Weizhi Fei, Yangqiu Song | (参考訳) 知識グラフの複雑な問合せに答えるには、オープンワールドの仮定のために不完全な知識よりも論理的推論が必要である。
学習に基づく手法は、観察できない知識を一般化できるため、不可欠である。
したがって、このパラダイムの下でそのような方法を取得し、評価するために適切なデータセットが基本である。
本稿では,複数の変数を持つ既存1次クエリの組合せ空間をカバーする,データ生成,モデルトレーニング,メソッド評価のための包括的フレームワークを提案する(\text{EFO}_{k}$)。
我々のフレームワークにおける組合せクエリ空間は、既存の文献における集合演算によって定義されるものを著しく拡張します。
さらに、実験的な評価のために、741種類のクエリを持つデータセットである$\text{EFO}_{k}$-CQAを構築し、ベンチマーク結果がクエリの硬さが結果に与える影響について、新たな洞察を提供する。
さらに,既存のデータセット構築プロセスが系統的に偏り,クエリ処理手法の適切な開発を妨げることを実証し,作業の重要性を強調した。
私たちのコードとデータは~\url{https://github.com/HKUST-KnowComp/EFOK-CQA}で提供されます。 To answer complex queries on knowledge graphs, logical reasoning over incomplete knowledge is required due to the open-world assumption. Learning-based methods are essential because they are capable of generalizing over unobserved knowledge. Therefore, an appropriate dataset is fundamental to both obtaining and evaluating such methods under this paradigm. In this paper, we propose a comprehensive framework for data generation, model training, and method evaluation that covers the combinatorial space of Existential First-order Queries with multiple variables ($\text{EFO}_{k}$). The combinatorial query space in our framework significantly extends those defined by set operations in the existing literature. Additionally, we construct a dataset, $\text{EFO}_{k}$-CQA, with 741 types of query for empirical evaluation, and our benchmark results provide new insights into how query hardness affects the results. Furthermore, we demonstrate that the existing dataset construction process is systematically biased that hinders the appropriate development of query-answering methods, highlighting the importance of our work. Our code and data are provided in~\url{https://github.com/HKUST-KnowComp/EFOK-CQA}. | 翻訳日:2023-07-30 03:55:59 公開日:2023-07-15 |
# 変数付きループ公式について On Loop Formulas with Variables ( http://arxiv.org/abs/2307.10226v1 ) ライセンス: Link先を確認 | Joohyung Lee, Yunsong Meng | (参考訳) 近年のフェラーリスとリーとリフシッツは、任意の一階文の構文に適用される接地を言及しない安定モデルの新たな定義を提案した。
我々は、Chen, Lin, Wang, Zhang の変数を持つループ公式のアイデアとの関係を示し、それらのループ公式を解法プログラムや任意の一階文に一般化する。
また、論理プログラムの構文を拡張して明示的な量化を許容し、その意味論をフェラーリスらによる安定モデルの新しい言語のサブクラスとして定義する。
そのようなプログラムは、一意な名前とドメインクロージャの仮定がなくても、安定なモデル意味論の下で非単調な推論を扱う能力が一般言語から継承され、制限された構文のために一般言語よりも簡潔なループ公式が得られる。
また,拡張プログラムの問合せを一階述語論理の補足チェックに還元できる構文条件を示し,非ブランド安定モデルに対する一階定理の推論に適用する方法を提案する。 Recently Ferraris, Lee and Lifschitz proposed a new definition of stable models that does not refer to grounding, which applies to the syntax of arbitrary first-order sentences. We show its relation to the idea of loop formulas with variables by Chen, Lin, Wang and Zhang, and generalize their loop formulas to disjunctive programs and to arbitrary first-order sentences. We also extend the syntax of logic programs to allow explicit quantifiers, and define its semantics as a subclass of the new language of stable models by Ferraris et al. Such programs inherit from the general language the ability to handle nonmonotonic reasoning under the stable model semantics even in the absence of the unique name and the domain closure assumptions, while yielding more succinct loop formulas than the general language due to the restricted syntax. We also show certain syntactic conditions under which query answering for an extended program can be reduced to entailment checking in first-order logic, providing a way to apply first-order theorem provers to reasoning about non-Herbrand stable models. | 翻訳日:2023-07-23 11:19:07 公開日:2023-07-15 |
# インテンショナル関数をもつ一階安定モデル意味論 First-Order Stable Model Semantics with Intensional Functions ( http://arxiv.org/abs/2307.10225v1 ) ライセンス: Link先を確認 | Michael Bartholomew, Joohyung Lee | (参考訳) 古典論理学において、対象の位置のような非ブール流は関数によって自然に記述できる。
しかし、これは関数の値が事前に定義されている解集合プログラムの場合ではなく、意味論の非単調性は述語の範囲を最小化することに関連しているが、関数とは無関係である。
フェラーリス、リー、リフシッツによる一階安定モデルのセマンティクスを拡張して、述語が指定されているのと同じように論理プログラムで指定される関数-を intensional function として許容する。
安定なモデル意味論の多くの既知の性質は、自然にこの形式に拡張され、インテンテンション関数を組み込む他の関連するアプローチと比較される。
さらに、この拡張を、ASPMT(Answer Set Programming Modulo Theories)の定義基盤として使用し、Satisfiability Modulo Theories(SMT)の定義に類似し、ASP.NETのコンテキストにおけるSMTのような効果的な一階述語推論を可能にする。
関数を含むSMT解法を用いて、ASPMTは実数を含む領域に適用でき、基底問題を軽減することができる。
ASPMT と CSP/SMT を統合する他の手法は,機能に制限のある ASPMT の特殊な場合と関係があることが示されている。 In classical logic, nonBoolean fluents, such as the location of an object, can be naturally described by functions. However, this is not the case in answer set programs, where the values of functions are pre-defined, and nonmonotonicity of the semantics is related to minimizing the extents of predicates but has nothing to do with functions. We extend the first-order stable model semantics by Ferraris, Lee, and Lifschitz to allow intensional functions -- functions that are specified by a logic program just like predicates are specified. We show that many known properties of the stable model semantics are naturally extended to this formalism and compare it with other related approaches to incorporating intensional functions. Furthermore, we use this extension as a basis for defining Answer Set Programming Modulo Theories (ASPMT), analogous to the way that Satisfiability Modulo Theories (SMT) is defined, allowing for SMT-like effective first-order reasoning in the context of ASP. Using SMT solving techniques involving functions, ASPMT can be applied to domains containing real numbers and alleviates the grounding problem. We show that other approaches to integrating ASP and CSP/SMT can be related to special cases of ASPMT in which functions are limited to non-intensional ones. | 翻訳日:2023-07-23 11:18:47 公開日:2023-07-15 |
# RL-ViGen:視覚一般化のための強化学習ベンチマーク RL-ViGen: A Reinforcement Learning Benchmark for Visual Generalization ( http://arxiv.org/abs/2307.10224v1 ) ライセンス: Link先を確認 | Zhecheng Yuan, Sizhe Yang, Pu Hua, Can Chang, Kaizhe Hu, Xiaolong Wang, Huazhe Xu | (参考訳) 視覚強化学習(Visual Reinforcement Learning, Visual RL)は、高次元の観察と相まって、長年にわたる一般化の課題に直面してきた。
視覚的一般化問題の解決を目的としたアルゴリズムに重点を置いているにもかかわらず、デビルは孤立したタスクや一般化カテゴリに限定されており、エージェントの視覚的一般化能力の包括的な評価を損なうため、既存のベンチマークにあると論じる。
視覚一般化のための強化学習ベンチマーク(Reinforcement Learning Benchmark for Visual Generalization, RL-ViGen)は,多様なタスクと多種多様な一般化型を含み,より信頼性の高い結論の導出を容易にする。
さらに、RL-ViGenは最新の一般化ビジュアルRLアルゴリズムを統一されたフレームワークに組み込んでいる。
我々の願望は、RL-ViGenがこの領域で触媒として機能し、現実のシナリオに適した普遍的な視覚一般化RLエージェントの創出の基礎となることである。
コードへのアクセスと実装されたアルゴリズムはhttps://gemcollector.github.io/RL-ViGen/で提供されます。 Visual Reinforcement Learning (Visual RL), coupled with high-dimensional observations, has consistently confronted the long-standing challenge of generalization. Despite the focus on algorithms aimed at resolving visual generalization problems, we argue that the devil is in the existing benchmarks as they are restricted to isolated tasks and generalization categories, undermining a comprehensive evaluation of agents' visual generalization capabilities. To bridge this gap, we introduce RL-ViGen: a novel Reinforcement Learning Benchmark for Visual Generalization, which contains diverse tasks and a wide spectrum of generalization types, thereby facilitating the derivation of more reliable conclusions. Furthermore, RL-ViGen incorporates the latest generalization visual RL algorithms into a unified framework, under which the experiment results indicate that no single existing algorithm has prevailed universally across tasks. Our aspiration is that RL-ViGen will serve as a catalyst in this area, and lay a foundation for the future creation of universal visual generalization RL agents suitable for real-world scenarios. Access to our code and implemented algorithms is provided at https://gemcollector.github.io/RL-ViGen/. | 翻訳日:2023-07-23 11:18:21 公開日:2023-07-15 |
# バウンティによるバウンディ:クイアAIハームの評価プロセスを協調的に形成する Bound by the Bounty: Collaboratively Shaping Evaluation Processes for Queer AI Harms ( http://arxiv.org/abs/2307.10223v1 ) ライセンス: Link先を確認 | Organizers of QueerInAI, Nathan Dennler, Anaelia Ovalle, Ashwin Singh, Luca Soldaini, Arjun Subramonian, Huy Tu, William Agnew, Avijit Ghosh, Kyra Yee, Irene Font Peradejordi, Zeerak Talat, Mayra Russo, Jess de Jesus de Pinho Pinhal | (参考訳) バイアス評価ベンチマークとデータセットとモデルドキュメンテーションは、人工知能(AI)システムのバイアスと害を評価する中心的なプロセスとして登場した。
しかし、これらの監査プロセスは、限界化されたコミュニティの知識の統合に失敗し、オーディエンスとコミュニティ間の力のダイナミクスを考慮しなかったことで批判されている。
その結果、AIシステム(例えばバイアス報奨金)の損害を特定し評価するコミュニティに影響を及ぼすバイアス評価のモードが提案されている。
それでも、こうした監査プロセスから疎外されたコミュニティが何を望むかを尋ねることは無視されている。
そこで本稿では,監査プロセスにおけるqueerコミュニティの立場と願望について質問する。
この目的のために,参加型ワークショップを組織し,クィアの観点からバイアス・バウンティの批判と再設計を行った。
スペースが与えられた場合、ワークショップ参加者からのフィードバックの範囲はバイアスバウンティが許容する範囲を超え、参加者はバウンティの所有権、インセンティブ、有効性に疑問を呈することが分かりました。
我々は、報奨金のコミュニティ所有を提唱し、報奨金の参加プロセス(例えば共同創造)を補完することで結論付ける。 Bias evaluation benchmarks and dataset and model documentation have emerged as central processes for assessing the biases and harms of artificial intelligence (AI) systems. However, these auditing processes have been criticized for their failure to integrate the knowledge of marginalized communities and consider the power dynamics between auditors and the communities. Consequently, modes of bias evaluation have been proposed that engage impacted communities in identifying and assessing the harms of AI systems (e.g., bias bounties). Even so, asking what marginalized communities want from such auditing processes has been neglected. In this paper, we ask queer communities for their positions on, and desires from, auditing processes. To this end, we organized a participatory workshop to critique and redesign bias bounties from queer perspectives. We found that when given space, the scope of feedback from workshop participants goes far beyond what bias bounties afford, with participants questioning the ownership, incentives, and efficacy of bounties. We conclude by advocating for community ownership of bounties and complementing bounties with participatory processes (e.g., co-creation). | 翻訳日:2023-07-23 11:18:01 公開日:2023-07-15 |
# がん診療ガイドラインのための知識自動モデリング Automated Knowledge Modeling for Cancer Clinical Practice Guidelines ( http://arxiv.org/abs/2307.10231v1 ) ライセンス: Link先を確認 | Pralaypati Ta, Bhumika Gupta, Arihant Jain, Sneha Sree C, Arunima Sarkar, Keerthi Ram, Mohanasankar Sivaprakasam | (参考訳) がん診療ガイドライン (CPGs) は, 活発な研究によって生み出された新たな証拠により, 急速に進展する。
現在、CPGは主に、この発展途上の知識を管理するのに不適な文書形式で発行されている。
プログラム的相互作用に適したガイドライン文書の知識モデルが必要となる。
本研究は,国立包括癌ネットワーク(nccn)cpgから得られた知識を自動的に抽出し,得られた知識を含む構造化モデルを生成する手法を提案する。
nccn非小細胞肺癌(nsclc)cpgの2つのバージョンを用いて,知識の忠実な抽出とモデリングの有効性を実証した。
がんステージング情報を用いた3つのエンリッチメント戦略,UMLS(Unified Medical Language System, Metathesaurus & National Cancer Institute Thesaurus, NCIT)概念, およびNode分類も提示され, がん診療ガイドラインのプログラム的トラバースとクエリ化の実現に向けたモデルが強化された。
ノード分類はサポートベクトルマシン(SVM)モデルを用いて行われ、10倍のクロスバリデーションで0.81の分類精度を達成した。 Clinical Practice Guidelines (CPGs) for cancer diseases evolve rapidly due to new evidence generated by active research. Currently, CPGs are primarily published in a document format that is ill-suited for managing this developing knowledge. A knowledge model of the guidelines document suitable for programmatic interaction is required. This work proposes an automated method for extraction of knowledge from National Comprehensive Cancer Network (NCCN) CPGs in Oncology and generating a structured model containing the retrieved knowledge. The proposed method was tested using two versions of NCCN Non-Small Cell Lung Cancer (NSCLC) CPG to demonstrate the effectiveness in faithful extraction and modeling of knowledge. Three enrichment strategies using Cancer staging information, Unified Medical Language System (UMLS) Metathesaurus & National Cancer Institute thesaurus (NCIt) concepts, and Node classification are also presented to enhance the model towards enabling programmatic traversal and querying of cancer care guidelines. The Node classification was performed using a Support Vector Machine (SVM) model, achieving a classification accuracy of 0.81 with 10-fold cross-validation. | 翻訳日:2023-07-23 11:07:09 公開日:2023-07-15 |
# 因果法則と多値流学者 Causal Laws and Multi-Valued Fluents ( http://arxiv.org/abs/2307.10227v1 ) ライセンス: Link先を確認 | Enrico Giunchiglia, Joohyung Lee, Vladimir Lifschitz, Hudson Turner | (参考訳) この論文は、マケインとターナーが導入した因果論理の体系や、ジッヒグリアとリフシッツが提唱したアクション言語Cのように、「真」と「因果」の区別を強調する非単調形式論における行動の性質を表現するための一連の研究を継続する。
言語C+で直接表現できる唯一の流派は真理値の流派であり、しばしば不便である。
因果論理と言語Cの両方を拡張して任意の空でない集合の値を許容できることが示される。
c+と呼ばれる言語cの拡張によって、属性の観点からのアクションの記述も可能になりました。
多値定数を持つ因果理論にC+を埋め込み、C+をPednaultのアクション言語ADLに関連付け、ブール定数を支持するためにどのように多値定数を排除できるかを示す。 This paper continues the line of work on representing properties of actions in nonmonotonic formalisms that stresses the distinction between being "true" and being "caused", as in the system of causal logic introduced by McCain and Turner and in the action language C proposed by Giunchiglia and Lifschitz. The only fluents directly representable in language C+ are truth-valued fluents, which is often inconvenient. We show that both causal logic and language C can be extended to allow values from arbitrary nonempty sets. Our extension of language C, called C+, also makes it possible to describe actions in terms of their attributes, which is important from the perspective of elaboration tolerance. We describe an embedding of C+ in causal theories with multi-valued constants, relate C+ to Pednault's action language ADL, and show how multi-valued constants can be eliminated in favor of Boolean constants. | 翻訳日:2023-07-23 11:06:46 公開日:2023-07-15 |
# 直観的ファジィ・ブロードラーニングシステム:騒音と外乱に対するロバスト性を高める Intuitionistic Fuzzy Broad Learning System: Enhancing Robustness Against Noise and Outliers ( http://arxiv.org/abs/2307.08713v1 ) ライセンス: Link先を確認 | M. Sajid, A.K. Malik, M. Tanveer | (参考訳) データ分類の分野では、層間フィードフォワードニューラルネットワークを利用する強力なツールとして広範学習システム(BLS)が証明されている。
特徴学習と拡張セグメントで構成され、入力データから複雑な特徴を抽出するために協力する。
従来のBLSでは、すべてのサンプルを同等に重要なものとして扱うため、ノイズや外れ値のある実世界のデータセットでは、より堅牢で、より効果的ではない。
この問題に対処するために,各トレーニングポイントにファジィメンバシップ値を割り当てるファジィBLS(F-BLS)モデルを提案する。
メンバシップ値を割り当てる際、F-BLSモデルは、サンプルからクラス中心までの距離のみを元の特徴空間のクラスに含めることなく考慮する。
さらに直観的ファジィ理論(IF-BLS)に基づく新しいBLSを提案する。
提案したIF-BLSはファジィメンバシップと非メンバシップ値に基づく直観的ファジィ数を用いて,カーネル関数を用いて高次元特徴空間のトレーニングポイントにスコアを割り当てる。
提案するf-blsおよびif-blsモデルの性能を,様々な領域にまたがる44のuciベンチマークデータセットで評価した。
さらに、提案したF-BLSモデルとIF-BLSモデルの堅牢性を評価するために、いくつかのUCIデータセットにガウスノイズが付加される。
提案したF-BLSモデルとIF-BLSモデルの一般化性能は,ガウス雑音と非ガウス雑音によるベースラインモデルと比較して優れていた。
さらに、アルツハイマー病神経画像イニシアチブ(ADNI)データセット上に提案したF-BLSモデルとIF-BLSモデルを実装し、実世界のアプリケーションでモデルの有効性を示す。
提案手法は,ノイズやアウトレイラを処理するBLSフレームワークを強化するための,有望なソリューションを提供する。 In the realm of data classification, broad learning system (BLS) has proven to be a potent tool that utilizes a layer-by-layer feed-forward neural network. It consists of feature learning and enhancement segments, working together to extract intricate features from input data. The traditional BLS treats all samples as equally significant, which makes it less robust and less effective for real-world datasets with noises and outliers. To address this issue, we propose the fuzzy BLS (F-BLS) model, which assigns a fuzzy membership value to each training point to reduce the influence of noises and outliers. In assigning the membership value, the F-BLS model solely considers the distance from samples to the class center in the original feature space without incorporating the extent of non-belongingness to a class. We further propose a novel BLS based on intuitionistic fuzzy theory (IF-BLS). The proposed IF-BLS utilizes intuitionistic fuzzy numbers based on fuzzy membership and non-membership values to assign scores to training points in the high-dimensional feature space by using a kernel function. We evaluate the performance of proposed F-BLS and IF-BLS models on 44 UCI benchmark datasets across diverse domains. Furthermore, Gaussian noise is added to some UCI datasets to assess the robustness of the proposed F-BLS and IF-BLS models. Experimental results demonstrate superior generalization performance of the proposed F-BLS and IF-BLS models compared to baseline models, both with and without Gaussian noise. Additionally, we implement the proposed F-BLS and IF-BLS models on the Alzheimers Disease Neuroimaging Initiative (ADNI) dataset, and promising results showcase the models effectiveness in real-world applications. The proposed methods offer a promising solution to enhance the BLS frameworks ability to handle noise and outliers. | 翻訳日:2023-07-19 17:58:04 公開日:2023-07-15 |
# 機械学習はメンタルトレーニングを満たす -- メモリスポーツに応用される概念実証 Machine Learning Meets Mental Training -- A Proof of Concept Applied to Memory Sports ( http://arxiv.org/abs/2307.08712v1 ) ライセンス: Link先を確認 | Emanuele Regnani | (参考訳) この研究は、記憶の芸術である特定の形態の精神訓練に機械学習の実践的な実装を提示し、これらの2つの分野を組み合わせることを目的としている。
このような融合は、両方の領域に対する意識を高めようとしている一方で、最終的にはこの過小評価されたスポーツの発展を促進する手段として、この混合分野の研究を奨励しようとしている。 This work aims to combine these two fields together by presenting a practical implementation of machine learning to the particular form of mental training that is the art of memory, taken in its competitive version called "Memory Sports". Such a fusion, on the one hand, strives to raise awareness about both realms, while on the other it seeks to encourage research in this mixed field as a way to, ultimately, drive forward the development of this seemingly underestimated sport. | 翻訳日:2023-07-19 17:57:30 公開日:2023-07-15 |
# コントラスト学習による関係モデルを用いたスマートフォン設定の直観的アクセス Intuitive Access to Smartphone Settings Using Relevance Model Trained by Contrastive Learning ( http://arxiv.org/abs/2307.09177v1 ) ライセンス: Link先を確認 | Joonyoung Kim, Kangwook Lee, Haebin Shin, Hurnjoo Lee, Sechun Kang, Byunguk Choi, Dong Shin, Joohyung Lee | (参考訳) スマートフォンに追加される新機能が増えれば増えるほど、ユーザーはそれらを見つけるのが難しくなる。
これは、機能名は通常短く、覚えておくべき数が多すぎるためです。
このような場合、ユーザは、探している機能を記述したコンテキストクエリを尋ねるかもしれませんが、標準用語である周波数ベースの検索はそれを処理できません。
本稿では,直感的・文脈的検索クエリを受け入れるモバイル機能検索システムを提案する。
私たちは,事前学習した言語モデルからのコントラスト学習を通じて関連性モデルを訓練し,クエリ埋め込みとインデックス付きモバイル機能とのコンテキスト的関連性を把握した。
また,最小限の資源を用いてデバイス上で効率的に動作させるため,知識蒸留を適用し,性能を劣化させることなくモデルを圧縮した。
提案手法の有効性を検証するため,テストクエリを収集し,現在デプロイされている検索ベースラインとの比較実験を行った。
その結果,本システムは文脈文クエリや通常のキーワードベースのクエリよりも優れていることがわかった。 The more new features that are being added to smartphones, the harder it becomes for users to find them. This is because the feature names are usually short, and there are just too many to remember. In such a case, the users may want to ask contextual queries that describe the features they are looking for, but the standard term frequency-based search cannot process them. This paper presents a novel retrieval system for mobile features that accepts intuitive and contextual search queries. We trained a relevance model via contrastive learning from a pre-trained language model to perceive the contextual relevance between query embeddings and indexed mobile features. Also, to make it run efficiently on-device using minimal resources, we applied knowledge distillation to compress the model without degrading much performance. To verify the feasibility of our method, we collected test queries and conducted comparative experiments with the currently deployed search baselines. The results show that our system outperforms the others on contextual sentence queries and even on usual keyword-based queries. | 翻訳日:2023-07-19 15:03:06 公開日:2023-07-15 |
# 論理プログラムのための基本セット Elementary Sets for Logic Programs ( http://arxiv.org/abs/2307.09168v1 ) ライセンス: Link先を確認 | Martin Gebser, Joohyung Lee, Yuliya Lierler | (参考訳) ループの概念とループ公式を導入することで、リンとザオは非可分論理プログラムの解集合が、すべてのループのループ公式を満たすクラークの完備化のモデルであることを示した。
近年、gebser と schaub は、ループ公式を ‘elementary loops' と呼ばれるループの特別なクラスに制限しても、lin-zhao の定理は正しいことを示した。
そこで本稿では,基本ループの概念を単純化し,一般化し,その役割を明らかにする。
本稿では,非可分型プログラムに対する基本ループの概念とほぼ同値な基本集合の概念を提案するが,単純であり,初等ループとは異なり,直観的な結果が得られず,非可分型プログラムに拡張することができる。
プログラムの ‘relevant'' 部分に対する最大非基礎的基本集合は、空でない非基礎的集合の中のちょうど極小集合であることを示す。
また,非分離型プログラムのための基本集合のグラフ理論的特徴付けについても述べる(gebser & schaub 2005)。
非分離型プログラムの場合とは異なり、基本集合を決定する問題は分離型プログラムのconp完全であることを示す。 By introducing the concepts of a loop and a loop formula, Lin and Zhao showed that the answer sets of a nondisjunctive logic program are exactly the models of its Clark's completion that satisfy the loop formulas of all loops. Recently, Gebser and Schaub showed that the Lin-Zhao theorem remains correct even if we restrict loop formulas to a special class of loops called ``elementary loops.'' In this paper, we simplify and generalize the notion of an elementary loop, and clarify its role. We propose the notion of an elementary set, which is almost equivalent to the notion of an elementary loop for nondisjunctive programs, but is simpler, and, unlike elementary loops, can be extended to disjunctive programs without producing unintuitive results. We show that the maximal unfounded elementary sets for the ``relevant'' part of a program are exactly the minimal sets among the nonempty unfounded sets. We also present a graph-theoretic characterization of elementary sets for nondisjunctive programs, which is simpler than the one proposed in (Gebser & Schaub 2005). Unlike the case of nondisjunctive programs, we show that the problem of deciding an elementary set is coNP-complete for disjunctive programs. | 翻訳日:2023-07-19 15:01:58 公開日:2023-07-15 |
# 安定模型の一般理論における安全な公式 Safe Formulas in the General Theory of Stable Models ( http://arxiv.org/abs/2307.09166v1 ) ライセンス: Link先を確認 | Joohyung Lee, Vladimir Lifschitz, Ravi Palla | (参考訳) 安全な一階式は安全な規則の概念を一般化し、応答集合の解法の設計において重要な役割を果たす。
任意の安全な文は、ある意味では、その基底となる結果と同値であることを示す - すべての量化器を複数の接続と接続に置き換えることで得られる変数自由な文に。
安全な文とその接地の結果は同じ安定なモデルを持ち、安全な文の安定モデルは単純な構文形式の公式によって特徴づけられる。 Safe first-order formulas generalize the concept of a safe rule, which plays an important role in the design of answer set solvers. We show that any safe sentence is equivalent, in a certain sense, to the result of its grounding -- to the variable-free sentence obtained from it by replacing all quantifiers with multiple conjunctions and disjunctions. It follows that a safe sentence and the result of its grounding have the same stable models, and that the stable models of a safe sentence can be characterized by a formula of a simple syntactic form. | 翻訳日:2023-07-19 15:01:36 公開日:2023-07-15 |
# 予算上の変分モンテカルロ-微調整事前学習ニューラルウェーブ関数 Variational Monte Carlo on a Budget -- Fine-tuning pre-trained Neural Wavefunctions ( http://arxiv.org/abs/2307.09337v1 ) ライセンス: Link先を確認 | Michael Scherbela, Leon Gerard, Philipp Grohs | (参考訳) schr\"odinger方程式の正確な解を得ることは、計算量子化学における重要な課題である。
深層学習に基づく変分モンテカルロ(dl-vmc)は,近年,従来の手法よりも精度が優れているが,計算コストは大きい。
多くのドメインモデルが一度にトレーニングされ、その後推論に適用されるが、正確なDL-VMCではすべての新しい問題インスタンスに対して完全な最適化が必要である。
そこで我々は,大規模かつ化学的に多様な分子集合上での自己教師付き波動関数最適化を用いたDL-VMCモデルを提案する。
このモデルを最適化せずに新しい分子に適用すると、波動関数や絶対エネルギーが得られ、CCSD(T)-2Zのような確立された手法よりも優れる。
正確な相対エネルギーを得るためには、このベースモデルの微調整ステップはごくわずかである。
我々は、改良された幾何埋め込みアーキテクチャと分子軌道を表す既存のse(3)-同変モデルからなる完全エンドツーエンドの機械学習モデルを用いてこれを達成した。
このアーキテクチャと連続的なジオメトリのサンプリングを組み合わせることで、ゼロショット精度をアートの状況と比較して2桁向上させる。
我々は,多種多様なテストシステムにおいて,ベースモデルの精度,スケーラビリティ,限界を広範囲に評価する。 Obtaining accurate solutions to the Schr\"odinger equation is the key challenge in computational quantum chemistry. Deep-learning-based Variational Monte Carlo (DL-VMC) has recently outperformed conventional approaches in terms of accuracy, but only at large computational cost. Whereas in many domains models are trained once and subsequently applied for inference, accurate DL-VMC so far requires a full optimization for every new problem instance, consuming thousands of GPUhs even for small molecules. We instead propose a DL-VMC model which has been pre-trained using self-supervised wavefunction optimization on a large and chemically diverse set of molecules. Applying this model to new molecules without any optimization, yields wavefunctions and absolute energies that outperform established methods such as CCSD(T)-2Z. To obtain accurate relative energies, only few fine-tuning steps of this base model are required. We accomplish this with a fully end-to-end machine-learned model, consisting of an improved geometry embedding architecture and an existing SE(3)-equivariant model to represent molecular orbitals. Combining this architecture with continuous sampling of geometries, we improve zero-shot accuracy by two orders of magnitude compared to the state of the art. We extensively evaluate the accuracy, scalability and limitations of our base model on a wide variety of test systems. | 翻訳日:2023-07-19 14:02:56 公開日:2023-07-15 |
# 畳み込みニューラルネットワークを用いた不均一照明面欠陥検査 Uneven illumination surface defects inspection based on convolutional neural network ( http://arxiv.org/abs/1905.06683v3 ) ライセンス: Link先を確認 | Hao Wu, Yulong Liu, Wenbin Gao, Xiangrong Xu | (参考訳) マシンビジョンに基づく表面欠陥検査は、しばしば不均一な照明の影響を受ける。
そこで本稿では, 畳み込みニューラルネットワークに基づく表面欠陥検出手法を提案する。この手法は, 畳み込みニューラルネットワークの調整, トレーニングパラメータ, ネットワーク構造の変化に基づいて, 様々な欠陥を正確に同定することを目的としている。
銅帯および鋼板画像の欠陥検査実験により、畳み込みニューラルネットワークは画像の前処理をせずに自動的に特徴を学習し、不均一照明による様々な画像欠陥の同定を正し、不均一照明下での従来の機械視検査方法の欠点を克服することを示した。 Surface defect inspection based on machine vision is often affected by uneven illumination. In order to improve the inspection rate of surface defects inspection under uneven illumination condition, this paper proposes a method for detecting surface image defects based on convolutional neural network, which is based on the adjustment of convolutional neural networks, training parameters, changing the structure of the network, to achieve the purpose of accurately identifying various defects. Experimental on defect inspection of copper strip and steel images shows that the convolutional neural network can automatically learn features without preprocessing the image, and correct identification of various types of image defects affected by uneven illumination, thus overcoming the drawbacks of traditional machine vision inspection methods under uneven illumination. | 翻訳日:2023-07-19 01:21:34 公開日:2023-07-15 |
# 自己組織化特徴マップに基づくハイブリッド量子古典的教師なしデータクラスタリング Hybrid quantum-classical unsupervised data clustering based on the Self-Organizing Feature Map ( http://arxiv.org/abs/2009.09246v2 ) ライセンス: Link先を確認 | Ilia D. Lazarev and Marek Narozniak and Tim Byrnes and Alexey N. Pyrkov | (参考訳) 教師なし機械学習は、人工知能で使用される主要なテクニックの1つである。
量子コンピュータはそのような機械学習技術を高速化する機会を提供する。
本稿では,ニューラルネットワークの一種である自己組織化特徴写像を用いた量子支援型無教師データクラスタリングのアルゴリズムを提案する。
我々は、IBM Q Experienceにおける中心的なコンポーネントの1つを概念実証として実現し、多数のクラスタにおける計算数を削減できることを示します。
教師なしテキストクラスタリングのおもちゃの例で、結果を古典的なアルゴリズムと比較する。 Unsupervised machine learning is one of the main techniques employed in artificial intelligence. Quantum computers offer opportunities to speed up such machine learning techniques. Here, we introduce an algorithm for quantum assisted unsupervised data clustering using the self-organizing feature map, a type of artificial neural network. We make a proof-of-concept realization of one of the central components on the IBM Q Experience and show that it allows us to reduce the number of calculations in a number of clusters. We compare the results with the classical algorithm on a toy example of unsupervised text clustering. | 翻訳日:2023-07-19 01:16:34 公開日:2023-07-15 |
# 非凸最適化のための部分サンプリングテンソル法 A Sub-sampled Tensor Method for Non-convex Optimization ( http://arxiv.org/abs/1911.10367v3 ) ライセンス: Link先を確認 | Aurelien Lucchi and Jonas Kohler | (参考訳) 本研究では, 4階正規化モデルを用いて, 有限サム構造を持つ滑らかで非凸な対象関数の局所最小値を求める確率最適化手法を提案する。
このアルゴリズムは正確な量ではなく、サブサンプリングされた微分を用いる。
提案手法は,最大で$\bigo\left(\max\left(\epsilon_1^{-4/3}, \epsilon_2^{-2}, \epsilon_3^{-4}\right)\right)$の3次臨界点を見いだし,決定論的アプローチの速度に一致することを示した。
この結果を証明するために、対象関数の有限サム構造を明示的に利用する任意の順序のテンソルの和に対して、新しいテンソル濃度不等式を導出する。 We present a stochastic optimization method that uses a fourth-order regularized model to find local minima of smooth and potentially non-convex objective functions with a finite-sum structure. This algorithm uses sub-sampled derivatives instead of exact quantities. The proposed approach is shown to find an $(\epsilon_1,\epsilon_2,\epsilon_3)$-third-order critical point in at most $\bigO\left(\max\left(\epsilon_1^{-4/3}, \epsilon_2^{-2}, \epsilon_3^{-4}\right)\right)$ iterations, thereby matching the rate of deterministic approaches. In order to prove this result, we derive a novel tensor concentration inequality for sums of tensors of any order that makes explicit use of the finite-sum structure of the objective function. | 翻訳日:2023-07-19 01:15:50 公開日:2023-07-15 |
# 多重ディラックスピノルに対するポテンシャル絡み合い不変量としてのローレンツ不変多項式 Low degree Lorentz invariant polynomials as potential entanglement invariants for multiple Dirac spinors ( http://arxiv.org/abs/2105.07503v4 ) ライセンス: Link先を確認 | Markus Johansson | (参考訳) 複数の空間的分離されたディラック粒子の系を考察し、局所固有直交ローレンツ群のスピノル表現の下で多項式不変量を構築する方法について述べる。
この方法は[phys.]で使われる方法の一般化である。
2つのディラック粒子の場合、A {\bf 105}, 032402 (2022), arXiv:2103.07784] である。
この方法によって構成されるすべての多項式は、積状態に対してゼロである。
固定粒子モーメントによって定義される任意の部分空間上で一元的に作用する局所ユニタリ進化の下での多項式の挙動を述べる。
設計により、すべての多項式は、進化がゼロ質量ディラック・ハミルトニアンによって局所的に生成されるとき、この種類の部分空間上の不変絶対値を持つ。
構成によっては、多項式は非零質量や付加結合に対しても不変絶対値を持つ。
これらの性質のため、多項式は、ゼロあるいは任意の質量または付加的なカップリングを持つ複数のディラック粒子のスピノル絡みを記述するための潜在的候補とみなされる。
次数 2 と 4 の多項式は、3 と 4 つのディラックスピノルの場合に導かれる。
3つのスピノルに対して、非零次数 2 の多項式は見つからないが、次数 4 の線型独立多項式67 が特定される。
4つのスピノル16に対して、次数2の線型独立多項式と、より大きい数から選択された次数4の26多項式が構成される。
これらの多項式と3と4つの非相対論的スピン-$\frac{1}{2}$粒子の多項式スピンエンタングルメント不変量との関係について述べる。
さらに、5つのスピノルに対して次数 4 多項式が構成可能か、あるいは任意の数のスピノルに対して次数 2 多項式が構成可能かを述べる。 A system of multiple spacelike separated Dirac particles is considered and a method for constructing polynomial invariants under the spinor representations of the local proper orthochronous Lorentz groups is described. The method is a generalization of the method used in [Phys. Rev. A {\bf 105}, 032402 (2022), arXiv:2103.07784] for the case of two Dirac particles. All polynomials constructed by this method are identically zero for product states. The behaviour of the polynomials under local unitary evolution that acts unitarily on any subspace defined by fixed particle momenta is described. By design all of the polynomials have invariant absolute values on this kind of subspaces if the evolution is locally generated by zero-mass Dirac Hamiltonians. Depending on construction some polynomials have invariant absolute values also for the case of nonzero-mass or additional couplings. Because of these properties the polynomials are considered potential candidates for describing the spinor entanglement of multiple Dirac particles, with either zero or arbitrary mass or additional couplings. Polynomials of degree 2 and 4 are derived for the cases of three and four Dirac spinors. For three spinors no non-zero degree 2 polynomials are found but 67 linearly independent polynomials of degree 4 are identified. For four spinors 16 linearly independent polynomials of degree 2 are constructed as well as 26 polynomials of degree 4 selected from a much larger number. The relations of these polynomials to the polynomial spin entanglement invariants of three and four non-relativistic spin-$\frac{1}{2}$ particles are described. Moreover, it is described how degree 4 polynomials for five spinors can be constructed and how degree 2 polynomials can be constructed for any even number of spinors. | 翻訳日:2023-07-19 01:06:31 公開日:2023-07-15 |
# PDEに基づくシンメトリ2アームベルヌーイ帯域の解析 A PDE-Based Analysis of the Symmetric Two-Armed Bernoulli Bandit ( http://arxiv.org/abs/2202.05767v5 ) ライセンス: Link先を確認 | Vladimir A. Kobzar, Robert V. Kohn | (参考訳) この研究は、腕の平均の和が 1 である二本腕ベルヌーイ・バンディット問題(対称二本腕ベルヌーイ・バンディット)のバージョンに対処する。
予測周期の数が無限に近づくにつれて、これらの平均間のギャップがゼロとなる、すなわち、サンプルサイズが大きくなるにつれて、ギャップを検出することの困難さが増大する状況において、それぞれを線形熱方程式の解に関連付けることで、この問題に対するminmax最適後悔と擬似後悔の先行順序項を得る。
これまでに知られていた結果の改善、具体的には、このギャップの3つの異なるスケーリング体制において、これらの先行順序項を明示的に計算する。
さらに、任意の時間軸に対して新しい非漸近境界を得る。
最適なプレイヤー戦略は、より一般的なバンドイット問題では知られていないが、たとえ最適ではないとしても、特定のプレイヤー戦略の下で後悔がどのように蓄積されるかを考えることには大きな関心がある。
我々は,本論文の手法が,そのタイプの設定に有用であることを期待している。 This work addresses a version of the two-armed Bernoulli bandit problem where the sum of the means of the arms is one (the symmetric two-armed Bernoulli bandit). In a regime where the gap between these means goes to zero as the number of prediction periods approaches infinity, i.e., the difficulty of detecting the gap increases as the sample size increases, we obtain the leading order terms of the minmax optimal regret and pseudoregret for this problem by associating each of them with a solution of a linear heat equation. Our results improve upon the previously known results; specifically, we explicitly compute these leading order terms in three different scaling regimes for the gap. Additionally, we obtain new non-asymptotic bounds for any given time horizon. Although optimal player strategies are not known for more general bandit problems, there is significant interest in considering how regret accumulates under specific player strategies, even when they are not known to be optimal. We expect that the methods of this paper should be useful in settings of that type. | 翻訳日:2023-07-19 00:59:09 公開日:2023-07-15 |
# Schr\\odinger-Heisenberg変分量子アルゴリズム Schr\"odinger-Heisenberg Variational Quantum Algorithms ( http://arxiv.org/abs/2112.07881v4 ) ライセンス: Link先を確認 | Zhong-Xia Shang, Ming-Cheng Chen, Xiao Yuan, Chao-Yang Lu, Jian-Wei Pan | (参考訳) 近年のブレークスルーは、数十から数百量子ビットの中間規模の量子コンピューティングの可能性を開き、化学や凝縮物質物理学のような古典的課題を解決する可能性を示した。
しかし、古典的コンピュータを超越するのに非常に高い精度が要求されるため、回路の奥行きが著しく制限され、現在は0.1-1%程度である。
そこで,量子ハードウェア上で現実的に実装される仮想ハイゼンベルク回路を,測定可観測性に効果的に作用する仮想ハイゼンベルク回路と,実際の浅いシュランガー回路を組み込むことにより,この問題を解決するためのシュランガー・ハイゼンベルク変分量子アルゴリズムのパラダイムを提案する。
我々はクリフォード仮想回路を選択し、そのハミルトニアンに対する効果はゴッテマン・クニルの定理に従って効率よく古典的に実装できる。
しかし、これは状態表現性を大幅に拡大し、より大きなユニタリt-設計を実現する。
本手法は、従来より深く正確な回路でしか実現できない正確な量子シミュレーションと計算を可能にする。
このことは, XXZモデルの基底状態エネルギーに対して, ランダム状態のより良い近似と高忠実解を求める数値実験で検証されている。
効果的な量子エラー緩和と共に、我々の研究は、近距離量子デバイスを用いた正確な量子コンピューティングアルゴリズムを実現する方法を広げている。 Recent breakthroughs have opened the possibility to intermediate-scale quantum computing with tens to hundreds of qubits, and shown the potential for solving classical challenging problems, such as in chemistry and condensed matter physics. However, the extremely high accuracy needed to surpass classical computers poses a critical demand to the circuit depth, which is severely limited by the non-negligible gate infidelity, currently around 0.1-1%. Here, by incorporating a virtual Heisenberg circuit, which acts effectively on the measurement observables, to a real shallow Schr\"odinger circuit, which is implemented realistically on the quantum hardware, we propose a paradigm of Schr\"odinger-Heisenberg variational quantum algorithms to resolve this problem. We choose a Clifford virtual circuit, whose effect on the Hamiltonian can be efficiently and classically implemented according to the Gottesman-Knill theorem. Yet, it greatly enlarges the state expressivity, realizing much larger unitary t-designs. Our method enables accurate quantum simulation and computation that otherwise is only achievable with much deeper and more accurate circuits conventionally. This has been verified in our numerical experiments for a better approximation of random states and a higher-fidelity solution to the ground state energy of the XXZ model. Together with effective quantum error mitigation, our work paves the way for realizing accurate quantum computing algorithms with near-term quantum devices. | 翻訳日:2023-07-19 00:56:53 公開日:2023-07-15 |
# 構文の階層構造 The Hierarchical Organization of Syntax ( http://arxiv.org/abs/2112.05783v2 ) ライセンス: Link先を確認 | Babak Ravandi and Valentina Concu | (参考訳) 階層は複雑なシステムの隠されたバックボーンであり、その分析はそれらの構造とどのように進化するかをより深く理解することができる。
言語は複雑な適応システムであり、複数の複雑なネットワークを持ち、それらの構造と機能を捉える。
そこで我々は,歴史的構文ネットワークの階層構造を分析し,構文の経時的変化を理解することにした。
我々は、これらのネットワークを11世紀から17世紀のドイツのテキストのコーパスから作り、これらのネットワークの階層的なレベルに焦点を当てた。
話し手の特定のコミュニケーションニーズに 対応させるためです
我々は,構文構造の出現を二元的に追跡し,話者のコミュニケーションニーズをこれらの構造にマップする枠組みを開発した。
我々はこれらの構文構造を「シンタクティックコミュニケーション階層」と名付けた。
我々は,話し手のコミュニケーションニーズが構文の組織的力であることを示した。
したがって,構文的コミュニケーション階層の出現は,構文形成において重要な役割を担っていると考える。
これは、言語が、情報転送の効率を向上させるだけでなく、より洗練された抽象化で私たちのニーズを伝達する種としての能力を高めるために進化することを示しているかもしれない。 Hierarchies are the hidden backbones of complex systems and their analysis allows for a deeper understanding of their structure and how they evolve. We consider languages also to be complex adaptive systems with several intricate networks that capture their structure and function. Hence, we decided to analyze the hierarchical organization of historical syntactic networks to understand how syntax evolves over time. We created these networks from a corpus of German texts from the 11th to 17th centuries, focusing on the hierarchical levels of these networks. diachronically and to map them to specific communicative needs of speakers. We developed a framework to empirically track the emergence of syntactic structures diachronically, enabling us to map the communicative needs of speakers with these structures. We named these syntactic structures "syntactic communicative hierarchies." We showed that the communicative needs of speakers are the organizational force of syntax. Thus, we argue that the emergence of syntactic communicative hierarchies plays a crucial role in shaping syntax over time. This may indicate that languages evolve not only to increase the efficiency of transferring information, but also to increase our capacity, as a species, to communicate our needs with more and more sophisticated abstractions. | 翻訳日:2023-07-19 00:56:30 公開日:2023-07-15 |
# オンライン深層強化学習における効果的な逆襲攻撃 Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning ( http://arxiv.org/abs/2205.14842v3 ) ライセンス: Link先を確認 | Yinglun Xu, Qi Zeng, Gagandeep Singh | (参考訳) 本研究では,オンライン深層強化学習(drl)において,エージェントが使用する学習アルゴリズムや環境のダイナミクスに不服従な報酬中毒攻撃について検討する。
我々は,adversarial mdp攻撃と呼ばれる一般的なブラックボックス報酬中毒フレームワークを設計することで,最先端のdrlアルゴリズムに固有の脆弱性を実証する。
私たちは、フレームワークをインスタンス化して、2つの新しいアタックを構築することで、全体のトレーニング時間ステップのごく一部で報酬を損なうだけで、エージェントが低パフォーマンスのポリシーを学ぶことができます。
我々は,攻撃の効率を理論的に解析し,広範な経験的評価を行う。
我々の攻撃は,DQN,PPO,SACなど,様々な最先端のDRLアルゴリズムを用いて,いくつかの古典的制御とMuJoCo環境下で学習し,効果的に毒を投与する。 We study reward poisoning attacks on online deep reinforcement learning (DRL), where the attacker is oblivious to the learning algorithm used by the agent and the dynamics of the environment. We demonstrate the intrinsic vulnerability of state-of-the-art DRL algorithms by designing a general, black-box reward poisoning framework called adversarial MDP attacks. We instantiate our framework to construct two new attacks which only corrupt the rewards for a small fraction of the total training timesteps and make the agent learn a low-performing policy. We provide a theoretical analysis of the efficiency of our attack and perform an extensive empirical evaluation. Our results show that our attacks efficiently poison agents learning in several popular classical control and MuJoCo environments with a variety of state-of-the-art DRL algorithms, such as DQN, PPO, SAC, etc. | 翻訳日:2023-07-19 00:50:11 公開日:2023-07-15 |
# サイズに対する多様性--Argument Mining Datasetにおけるサンプルサイズとトピックサイズの影響 Diversity Over Size: On the Effect of Sample and Topic Sizes for Argument Mining Datasets ( http://arxiv.org/abs/2205.11472v2 ) ライセンス: Link先を確認 | Benjamin Schiller, Johannes Daxenberger, Iryna Gurevych | (参考訳) 大きな文書ソースから特定のトピックの議論文を抽出する議論マイニングのタスクは、機械学習モデルや人間にとって本質的に難しいタスクであり、大きな議論マイニングデータセットは稀であり、議論文の認識には専門家の知識が必要である。
検索された引数のスタンス検出も含むと、タスクはさらに難しくなります。
適切に大きなArgument Miningデータセットを作成するコストと複雑さを考えると、許容可能なパフォーマンスがデータセットのサイズを拡大するために必要かどうかを問う。
この結果から,慎重に構成したトレーニングサンプルと,関連するタスクに事前学習したモデルを用いることで,トレーニングサンプルのサイズを少なくとも85%減らしながら,最大性能の95%を達成できることがわかった。
このゲインは、3つの異なるデータセット上の3つのArgument Miningタスク間で一貫性がある。
将来のベンチマークのための新しいデータセットも公開しています。 The task of Argument Mining, that is extracting argumentative sentences for a specific topic from large document sources, is an inherently difficult task for machine learning models and humans alike, as large Argument Mining datasets are rare and recognition of argumentative sentences requires expert knowledge. The task becomes even more difficult if it also involves stance detection of retrieved arguments. Given the cost and complexity of creating suitably large Argument Mining datasets, we ask whether it is necessary for acceptable performance to have datasets growing in size. Our findings show that, when using carefully composed training samples and a model pretrained on related tasks, we can reach 95% of the maximum performance while reducing the training sample size by at least 85%. This gain is consistent across three Argument Mining tasks on three different datasets. We also publish a new dataset for future benchmarking. | 翻訳日:2023-07-19 00:49:29 公開日:2023-07-15 |
# 物体光場の無監督発見と組成 Unsupervised Discovery and Composition of Object Light Fields ( http://arxiv.org/abs/2205.03923v2 ) ライセンス: Link先を確認 | Cameron Smith, Hong-Xing Yu, Sergey Zakharov, Fredo Durand, Joshua B. Tenenbaum, Jiajun Wu, Vincent Sitzmann | (参考訳) 連続的および離散的なニューラルシーン表現は、3dシーン理解のための強力な新しいパラダイムとして最近登場した。
最近の研究は、対象中心の神経シーン表現の教師なし発見に取り組んでいる。
しかし、各オブジェクト表現を別々にレイマーチングしなければならないという事実によって悪化するレイマーチングのコストが高いため、放射能フィールドのサンプリングが不十分となり、ノイズのレンダリング、フレームレートの低下、トレーニングやレンダリングの際のメモリと時間の複雑さが増す。
本稿では,オブジェクト中心の合成シーンを光場として表現することを提案する。
本稿では,オブジェクト中心の光場から全球光野を再構成できる新しい光電場合成モジュールを提案する。
提案手法は,オブジェクト中心のニューラルシーン表現の教師なし学習,標準データセット上での最先端の再構築と新しいビュー合成性能,および既存の3次元アプローチよりも桁違いに高速なレンダリングとトレーニング速度を実現する。 Neural scene representations, both continuous and discrete, have recently emerged as a powerful new paradigm for 3D scene understanding. Recent efforts have tackled unsupervised discovery of object-centric neural scene representations. However, the high cost of ray-marching, exacerbated by the fact that each object representation has to be ray-marched separately, leads to insufficiently sampled radiance fields and thus, noisy renderings, poor framerates, and high memory and time complexity during training and rendering. Here, we propose to represent objects in an object-centric, compositional scene representation as light fields. We propose a novel light field compositor module that enables reconstructing the global light field from a set of object-centric light fields. Dubbed Compositional Object Light Fields (COLF), our method enables unsupervised learning of object-centric neural scene representations, state-of-the-art reconstruction and novel view synthesis performance on standard datasets, and rendering and training speeds at orders of magnitude faster than existing 3D approaches. | 翻訳日:2023-07-19 00:48:30 公開日:2023-07-15 |
# 時間依存開量子系における熱力学の第一法則について On the First Law of Thermodynamics in Time-Dependent Open Quantum Systems ( http://arxiv.org/abs/2208.06544v2 ) ライセンス: Link先を確認 | Parth Kumar, Charles A. Stafford | (参考訳) 平衡から遠ざかるオープン量子系における熱、仕事、内部エネルギーなどの熱力学量をどのように厳密に定義するかは、量子熱力学において重要な問題である。
熱とは、平衡から無限に摂動する系の過程にのみ基本的な定義が適用される量であり、強駆動系では慎重に考慮しなければならない。
メソスコピックからの鍵となる洞察は、開量子系の局所的な駆動と結合から無限に遠く、貯水池は無限に摂動するだけであり、したがって放熱が定義できるということである。
エントロピーの分割はエネルギーのヒルベルト空間分割を必要とし、相互作用する時間に依存した開量子系の内部エネルギーに対するあいまいな作用素となる。
非平衡グリーン関数の形式を用いて、熱電流と様々なエージェントがシステムへ供給する電力の完全な一般的な表現を導出し、実験上有意義で量子力学的に一貫したシステムのエネルギーの分離を、熱の流出とシステム上での作業に考慮する。
強駆動開量子系における内部エネルギーの時空間分布も解析される。
この形式は、2つの金属貯水池に強く結合し、化学ポンプ/エンジンまたはヒートポンプ/エンジンとして複数の構成で動作可能な2段階の駆動量子システムであるモデル量子マシンの熱力学性能を分析するために用いられる。 How to rigorously define thermodynamic quantities such as heat, work, and internal energy in open quantum systems driven far from equilibrium remains a significant open question in quantum thermodynamics. Heat is a quantity whose fundamental definition applies only to processes in systems infinitesimally perturbed from equilibrium, and as such, must be accounted for carefully in strongly-driven systems. A key insight from Mesoscopics is that infinitely far from the local driving and coupling of an open quantum system, reservoirs are indeed only infinitesimally perturbed, thereby allowing the heat dissipated to be defined. The resulting partition of the entropy necessitates a Hilbert-space partition of the energetics, leading to an unambiguous operator for the internal energy of an interacting time-dependent open quantum system. Fully general expressions for the heat current and the power delivered by various agents to the system are derived using the formalism of nonequilibrium Green's functions, establishing an experimentally meaningful and quantum mechanically consistent division of the energy of the system under consideration into Heat flowing out of and Work done on the system. The spatio-temporal distribution of internal energy in a strongly-driven open quantum system is also analyzed. This formalism is applied to analyze the thermodynamic performance of a model quantum machine: a driven two-level quantum system strongly coupled to two metallic reservoirs, which can operate in several configurations--as a chemical pump/engine or a heat pump/engine. | 翻訳日:2023-07-19 00:40:28 公開日:2023-07-15 |
# ベイジアンブラッドレー・テリーモデルによる複数データセット上の複数のMLアルゴリズムの比較 A Bayesian Bradley-Terry model to compare multiple ML algorithms on multiple data sets ( http://arxiv.org/abs/2208.04935v2 ) ライセンス: Link先を確認 | Jacques Wainer | (参考訳) 本稿では,複数のデータ集合上の複数のアルゴリズムを任意のメトリックで比較するベイズモデルを提案する。
このモデルはBradley-Terryモデルに基づいており、1つのアルゴリズムが異なるデータセットで他のアルゴリズムよりも優れている回数を数えている。
ベイジアンの基礎があるため、ベイジアン・ブラッドリー・テリー・モデル(bbt)は、平均階数に関するdemsar(2006年)テストや、p-調整手順を用いたbenavoli et al.(2016年)など、複数のデータセットにおける複数のアルゴリズムを比較する、頻繁なアプローチとは異なる特徴を持つ。
特にベイズ的アプローチでは、差が統計的に有意でないと主張すること以外、アルゴリズムに関するよりニュアンスな言明が可能である。
ベイズ的アプローチは、2つのアルゴリズムが実用目的に等価である場合や、実用的な等価領域(ROPE)を定義することもできる。
Benavoli et al. (2017) によって提案されたベイズ符号付きランク比較法とは異なり、この手法は任意の計量に対してROPEを定義することができる。
本稿ではまた,あるクロス検証平均値と他のアルゴリズムの平均値との正の差が,効果サイズに基づいて第1のアルゴリズムが第2のアルゴリズムよりも優れていると見なされるべきかどうかを評価する局所ロープの概念を提案する。
この局所ROPE提案はベイズ的使用とは独立であり、ランクに基づく頻繁なアプローチで使用することができる。
RパッケージとBBTを実装するPythonプログラムが利用可能である。 This paper proposes a Bayesian model to compare multiple algorithms on multiple data sets, on any metric. The model is based on the Bradley-Terry model, that counts the number of times one algorithm performs better than another on different data sets. Because of its Bayesian foundations, the Bayesian Bradley Terry model (BBT) has different characteristics than frequentist approaches to comparing multiple algorithms on multiple data sets, such as Demsar (2006) tests on mean rank, and Benavoli et al. (2016) multiple pairwise Wilcoxon tests with p-adjustment procedures. In particular, a Bayesian approach allows for more nuanced statements regarding the algorithms beyond claiming that the difference is or it is not statistically significant. Bayesian approaches also allow to define when two algorithms are equivalent for practical purposes, or the region of practical equivalence (ROPE). Different than a Bayesian signed rank comparison procedure proposed by Benavoli et al. (2017), our approach can define a ROPE for any metric, since it is based on probability statements, and not on differences of that metric. This paper also proposes a local ROPE concept, that evaluates whether a positive difference between a mean measure across some cross validation to the mean of some other algorithms is should be really seen as the first algorithm being better than the second, based on effect sizes. This local ROPE proposal is independent of a Bayesian use, and can be used in frequentist approaches based on ranks. A R package and a Python program that implements the BBT is available. | 翻訳日:2023-07-19 00:40:02 公開日:2023-07-15 |
# 散逸性反磁性における運動エネルギーと磁気モーメントの分配 Partition of kinetic energy and magnetic moment in dissipative diamagnetism ( http://arxiv.org/abs/2208.00161v4 ) ライセンス: Link先を確認 | Jasleen Kaur, Aritra Ghosh, Malay Bandyopadhyay | (参考訳) 本稿では,2次元における散逸性シクロトロン運動に起因する散逸性双磁性を,エネルギー平衡定理の量子対の光で解析する。
我々は、一様磁場の存在下で、高調波井戸内を移動する荷電量子粒子を、無限個の独立した量子発振器からなる量子熱浴に結合すると考える。
エネルギー均等定理の量子対は、散逸発振子の平均運動エネルギーを2倍平均として表すことができ、そこでは、第1平均化は熱浴のギブス標準状態上で行われ、第2平均化は確率分布関数$P_k(\omega)$で制御される。
この結果をさらに分析し,弱結合限界における一貫性を示す。
その後、系の平衡磁気モーメントを計算し、エネルギー同分定理の量子対と興味深い関係を明らかにする。
運動エネルギーと磁気モーメントの表現は、超統計学、すなわち2つの統計の重ね合わせの文脈で再構成される。
より伝統的なギブズアプローチで得られたものとの比較研究を行い、完全な合意を得る。 In this paper, we analyze dissipative diamagnetism, arising due to dissipative cyclotron motion in two dimensions, in the light of the quantum counterpart of energy equipartition theorem. We consider a charged quantum particle moving in a harmonic well, in the presence of a uniform magnetic field, and coupled to a quantum heat bath which is taken to be composed of an infinite number of independent quantum oscillators. The quantum counterpart of energy equipartition theorem tells us that it is possible to express the mean kinetic energy of the dissipative oscillator as a two-fold average, where, the first averaging is performed over the Gibbs canonical state of the heat bath while the second one is governed by a probability distribution function $P_k(\omega)$. We analyze this result further, and also demonstrate its consistency in the weak-coupling limit. Following this, we compute the equilibrium magnetic moment of the system, and reveal an interesting connection with the quantum counterpart of energy equipartition theorem. The expressions for kinetic energy and magnetic moment are reformulated in the context of superstatistics, i.e. the superposition of two statistics. A comparative study of the present results with those obtained from the more traditional Gibbs approach is performed and a perfect agreement is obtained. | 翻訳日:2023-07-19 00:39:27 公開日:2023-07-15 |
# SGDと軽量化はニューラルネットワークの低ランクバイアスを誘発する SGD and Weight Decay Provably Induce a Low-Rank Bias in Neural Networks ( http://arxiv.org/abs/2206.05794v4 ) ライセンス: Link先を確認 | Tomer Galanti, Zachary S. Siegel, Aparna Gupte, Tomaso Poggio | (参考訳) 本研究では,SGD(Stochastic Gradient Descent)の偏りを考察し,深部ReLUニューラルネットワークのトレーニングにおいて低ランクの重み行列を学習する。
以上の結果から,SGDと重み劣化によるニューラルネットワークのトレーニングは,重み行列のランク最小化に偏りがあることが示唆された。
具体的には、理論的にも経験的にも、より小さなバッチサイズ、学習率の向上、体重減少の増加などにより、このバイアスはより顕著であることを示す。
さらに、このバイアスを達成するには重量減衰が必要であることを実証的に予測し、観察する。
さらに, 中間的神経崩壊の存在下, 学習重量は特に低ランクであることが示唆された。
従来の文献とは異なり、本解析は重み行列のデータ、収束、最適性に関する仮定には依存しない。
さらに、幅や深さの広い範囲のニューラルネットワークアーキテクチャにも適用される。
最後に,このバイアスと一般化との関係を実証的に検討し,一般化に限界的な影響があることを見いだした。 We study the bias of Stochastic Gradient Descent (SGD) to learn low-rank weight matrices when training deep ReLU neural networks. Our results show that training neural networks with mini-batch SGD and weight decay causes a bias towards rank minimization over the weight matrices. Specifically, we show, both theoretically and empirically, that this bias is more pronounced when using smaller batch sizes, higher learning rates, or increased weight decay. Additionally, we predict and observe empirically that weight decay is necessary to achieve this bias. In addition, we show that in the presence of intermediate neural collapse, the learned weights are particularly low-rank. Unlike previous literature, our analysis does not rely on assumptions about the data, convergence, or optimality of the weight matrices. Furthermore, it applies to a wide range of neural network architectures of any width or depth. Finally, we empirically investigate the connection between this bias and generalization, finding that it has a marginal effect on generalization. | 翻訳日:2023-07-19 00:36:20 公開日:2023-07-15 |
# NeRF-Loc:ニューラルラジアンスフィールド内におけるトランスフォーマーによる物体定位 NeRF-Loc: Transformer-Based Object Localization Within Neural Radiance Fields ( http://arxiv.org/abs/2209.12068v2 ) ライセンス: Link先を確認 | Jiankai Sun, Yan Xu, Mingyu Ding, Hongwei Yi, Chen Wang, Jingdong Wang, Liangjun Zhang, Mac Schwager | (参考訳) 近年,Neural Radiance Fields (NeRF) はロボットナビゲーションや操作タスクの利点を示すシーン表現技術として広く採用されている。
ロボット工学におけるNeRFの活用をさらに進めるために,NeRFシーン内の物体の3次元境界ボックスを抽出するトランスフォーマーベースのフレームワークNeRF-Locを提案する。
NeRF-Locは、事前訓練されたNeRFモデルとカメラビューを入力として、オブジェクトのラベル付き3Dバウンディングボックスを出力として生成する。
ロボットは、現在のNeRFトレーニングツールを使用して、NeRF環境モデルをリアルタイムでトレーニングし、我々のアルゴリズムを用いて、下流ナビゲーションや操作タスクのために、NeRF内の興味ある物体の3次元境界ボックスを識別する。
具体的には,一対の並列トランスフォーマーエンコーダ分岐,すなわち粗いストリームと細かなストリームを設計し,対象オブジェクトのコンテキストと詳細の両方を符号化する。
符号化された特徴は、注意層と融合して、正確なオブジェクトローカライゼーションのためのあいまいさを軽減する。
提案手法を従来のRGB(-D)ベースでレンダリングされたRGB画像とNeRFからの深度を入力とする手法と比較した。
我々の方法はベースラインより優れている。 Neural Radiance Fields (NeRFs) have become a widely-applied scene representation technique in recent years, showing advantages for robot navigation and manipulation tasks. To further advance the utility of NeRFs for robotics, we propose a transformer-based framework, NeRF-Loc, to extract 3D bounding boxes of objects in NeRF scenes. NeRF-Loc takes a pre-trained NeRF model and camera view as input and produces labeled, oriented 3D bounding boxes of objects as output. Using current NeRF training tools, a robot can train a NeRF environment model in real-time and, using our algorithm, identify 3D bounding boxes of objects of interest within the NeRF for downstream navigation or manipulation tasks. Concretely, we design a pair of paralleled transformer encoder branches, namely the coarse stream and the fine stream, to encode both the context and details of target objects. The encoded features are then fused together with attention layers to alleviate ambiguities for accurate object localization. We have compared our method with conventional RGB(-D) based methods that take rendered RGB images and depths from NeRFs as inputs. Our method is better than the baselines. | 翻訳日:2023-07-19 00:30:17 公開日:2023-07-15 |
# 言語モデルを用いた具体化タスクのグラウンドド・プランニングについて On Grounded Planning for Embodied Tasks with Language Models ( http://arxiv.org/abs/2209.00465v3 ) ライセンス: Link先を確認 | Bill Yuchen Lin, Chengsong Huang, Qian Liu, Wenda Gu, Sam Sommerer, Xiang Ren | (参考訳) 言語モデル(LM)は、日常の作業を行う上で重要な側面である物理世界の常識的知識を持つ能力を示した。
しかし、LMが具体化されたタスクのための基礎的で実行可能な計画を生成する能力を持っているかどうかはまだ不明である。
* LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しいタスクです。
本稿では,この重要な研究課題を取り上げ,そのトピックに関する最初の調査を行う。
我々の新しい問題定式化**G-PlanET**は、特定の環境におけるオブジェクトに関する高レベルな目標とデータテーブルを入力し、ロボットエージェントが従うためのステップバイステップ実行可能なプランを出力する。
研究を容易にするために,**評価プロトコル*を確立し,計画の質を評価するための専用指標を設計する。
実験により,環境をエンコードするためのテーブルと反復復号化戦略を用いることにより,地上計画におけるlmsの能力が著しく向上することを示す。
分析の結果、興味深く非自明な結果も明らかになった。 Language models (LMs) have demonstrated their capability in possessing commonsense knowledge of the physical world, a crucial aspect of performing tasks in everyday life. However, it remains unclear **whether LMs have the capacity to generate grounded, executable plans for embodied tasks.** This is a challenging task as LMs lack the ability to perceive the environment through vision and feedback from the physical environment. In this paper, we address this important research question and present the first investigation into the topic. Our novel problem formulation, named **G-PlanET**, inputs a high-level goal and a data table about objects in a specific environment, and then outputs a step-by-step actionable plan for a robotic agent to follow. To facilitate the study, we establish an **evaluation protocol** and design a dedicated metric to assess the quality of the plans. Our experiments demonstrate that the use of tables for encoding the environment and an iterative decoding strategy can significantly enhance the LMs' ability in grounded planning. Our analysis also reveals interesting and non-trivial findings. | 翻訳日:2023-07-19 00:28:03 公開日:2023-07-15 |
# 固有長尾データを用いたラベルノイズ学習 Label-Noise Learning with Intrinsically Long-Tailed Data ( http://arxiv.org/abs/2208.09833v2 ) ライセンス: Link先を確認 | Yang Lu, Yiliang Zhang, Bo Han, Yiu-ming Cheung, Hanzi Wang | (参考訳) ラベルノイズは、ディープラーニングモデルの一般化の欠如につながる重要な要因の1つである。
既存のラベルノイズ学習法では、トレーニングデータの基幹クラスがバランスしていると仮定することが多い。
しかし、実世界のデータはしばしば不均衡であり、観測されたクラスと固有のクラス分布とラベルノイズとの矛盾をもたらす。
この場合、未知の固有クラス分布を持つ固有テールクラスのノイズの多いサンプルとクリーンサンプルを区別することは困難である。
本稿では,本質的ロングテールデータを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には,2段階の2次元試料選択法(TABASCO)を提案する。
TABASCOは、サンプル分離において単一の測定値を使用することの制限を補うために、互いに補完する2つの新しい分離指標から構成される。
本手法の有効性を実世界騒音と本質的ロングテール分布を用いたベンチマーク実験により実証した。 Label noise is one of the key factors that lead to the poor generalization of deep learning models. Existing label-noise learning methods usually assume that the ground-truth classes of the training data are balanced. However, the real-world data is often imbalanced, leading to the inconsistency between observed and intrinsic class distribution with label noises. In this case, it is hard to distinguish clean samples from noisy samples on the intrinsic tail classes with the unknown intrinsic class distribution. In this paper, we propose a learning framework for label-noise learning with intrinsically long-tailed data. Specifically, we propose two-stage bi-dimensional sample selection (TABASCO) to better separate clean samples from noisy samples, especially for the tail classes. TABASCO consists of two new separation metrics that complement each other to compensate for the limitation of using a single metric in sample separation. Extensive experiments on benchmarks we proposed with real-world noise and intrinsically long-tailed distribution demonstrate the effectiveness of our method. | 翻訳日:2023-07-19 00:27:25 公開日:2023-07-15 |
# 圧縮駆動Kerr発振器におけるスペクトルキスとその動的影響 Spectral kissing and its dynamical consequences in the squeeze-driven Kerr oscillator ( http://arxiv.org/abs/2210.07255v2 ) ライセンス: Link先を確認 | Jorge Ch\'avez-Carlos, Tal\'ia L. M. Lezama, Rodrigo G. Corti\~nas, Jayameenakshi Venkatraman, Michel H. Devoret, Victor S. Batista, Francisco P\'erez-Bernal, Lea F. Santos | (参考訳) トランスモン量子ビットは、制御性とエンジニアリング実装の容易さから、既存の量子コンピュータのような回路ベースの量子情報処理の主要な要素である。
しかし、量子ビット以上では、トランスモンは基礎物理学の問題を研究できる多レベル非線形振動子である。
ここでは、励起状態への量子相転移の一般化である励起状態量子相転移(ESQPT)のシミュレータとして探索される。
駆動SNAIL-トランスモンのハミルトニアンで実験的に観察されたスペクトルキス(一対のエネルギー準位)がESQPT前駆体であることを示す。
ESQPTの動的影響について検討し, 時間外相関器の指数的成長, 周期的回復, 局所化による生存確率の緩やかな進化などを検討した。
これらのesqptのシグネチャは、現在の超伝導回路のプラットフォームに届き、冷たい原子やイオントラップの実験に興味がある。 Transmon qubits are the predominant element in circuit-based quantum information processing, such as existing quantum computers, due to their controllability and ease of engineering implementation. But more than qubits, transmons are multilevel nonlinear oscillators that can be used to investigate fundamental physics questions. Here, they are explored as simulators of excited state quantum phase transitions (ESQPTs), which are generalizations of quantum phase transitions to excited states. We show that the spectral kissing (coalescence of pairs of energy levels) experimentally observed in the effective Hamiltonian of a driven SNAIL-transmon is an ESQPT precursor. We explore the dynamical consequences of the ESQPT, which include the exponential growth of out-of-time-ordered correlators, followed by periodic revivals, and the slow evolution of the survival probability due to localization. These signatures of ESQPT are within reach for current superconducting circuits platforms and are of interest to experiments with cold atoms and ion traps. | 翻訳日:2023-07-19 00:19:38 公開日:2023-07-15 |
# DialoGen:対話システムのための一般化ロングランジコンテキスト表現 DialoGen: Generalized Long-Range Context Representation for Dialogue Systems ( http://arxiv.org/abs/2210.06282v3 ) ライセンス: Link先を確認 | Suvodip Dey, Maunendra Sankar Desarkar, P. K. Srijith | (参考訳) 長距離コンテキストモデリングは対話理解と生成の両方に不可欠である。
対話コンテキスト表現の最も一般的な方法は、最後の$k$前の発話を結合することである。
しかし、この方法は、最後の$k$の発話を超えることができないため、長距離依存関係を含む会話には理想的ではないかもしれない。
本研究では,対話型応答生成のための新しいエンコーダ・デコーダベースのフレームワークであるDialoGenを提案する。
したがって、この手法は長距離依存による会話に適応する。
提案手法の主な考え方は,時間順の最後の$k$の発話ではなく,最も関連性の高い歴史的発話を識別し,活用することである。
本稿では,対話生成(オープンドメイン)と理解(DST)タスクにおける提案手法の有効性について検討する。
DialoGenはDailyDialogデータセットの最先端モデルと同等のパフォーマンスを実現している。
また,マルチウォズデータセット上で提案するコンテキスト表現戦略を用いて,既存のdstモデルの性能向上を観測する。
本稿では,対話の一般化可能性と解釈可能性について議論し,先行発話の関連性スコアが人間の認識とよく一致することを示す。 Long-range context modeling is crucial to both dialogue understanding and generation. The most popular method for dialogue context representation is to concatenate the last-$k$ previous utterances. However, this method may not be ideal for conversations containing long-range dependencies as it cannot look beyond last-$k$ utterances. In this work, we propose DialoGen, a novel encoder-decoder based framework for conversational response generation with a generalized context representation that can look beyond the last-$k$ utterances. Hence the method is adaptive to conversations with long-range dependencies. The main idea of our approach is to identify and utilize the most relevant historical utterances instead of the last-$k$ utterances in chronological order. We study the effectiveness of our proposed method on both dialogue generation (open-domain) and understanding (DST) tasks. DialoGen achieves comparable performance with the state-of-the-art models on DailyDialog dataset. We also observe performance gain in existing DST models with our proposed context representation strategy on MultiWOZ dataset. We discuss the generalizability and interpretability of DialoGen and show that the relevance score of previous utterances agrees well with human cognition. | 翻訳日:2023-07-19 00:19:22 公開日:2023-07-15 |
# 計測に基づく量子相補性の一般的な枠組み General framework of quantum complementarity from a measurement-based perspective ( http://arxiv.org/abs/2210.00958v3 ) ライセンス: Link先を確認 | Shan Huang, Wen-Bo Liu, Yundu Zhao, Hua-Lei Yin, Zeng-Bing Chen, and Shengjun Wu | (参考訳) 量子物理学の最も顕著な特徴の1つは、光の波のような振る舞いや粒子のような振る舞いのような量子物体の属性が、それらが等しく現実であるが同時に観測できないという意味で相補的であることである。
量子測定における相補性の特徴は概念的にも実用的にも不可欠である。
本稿では,情報排他関係(IER)の形での量子相補性を示すための一般的なフレームワークを開発する。
具体的には,量子システムの操作的不変情報測度 [phy. rev. lett. 83, 3354 (1999)] に着想を得て,量子システム上の個々の一般化された測定値に対する情報ゲインの簡潔な尺度を提案する。
記憶の有無に関わらず,複数の測定値から得られる情報の総和の重み付けに関する基本的な限界を得る。
特に、これらの極限は、相互に偏った測定の完全な集合の下で任意の量子状態によって飽和し、相補的な性質の総和が情報的に完備であるというボーアの考えをうまく捉えている。
さらに、波動粒子の双対性は本質的には情報相補性の特別な形式であることを解明する。
さらに, エントロピー不確実性関係(EUR)に対するIERの影響について検討する。
本稿では,複数の測定値に対するエントロピーの重み付き和の下限を与える r\'{e}nyi eurs の拡張形式を提案する。
これらの重みを最適化することは、追加の量子コストなしで実用的な利点をもたらす。 One of the most remarkable features of quantum physics is that attributes of quantum objects, such as the wave-like and particle-like behaviors of light, can be complementary in the sense that they are equally real but cannot be observed simultaneously. Characterization of complementarity highlighting its manifestations in quantum measurements is crucial both conceptually and practically. Here, we develop a general framework for demonstrating quantum complementarity in the form of information exclusion relations (IERs). Specifically, inspired by the operational invariant information measure of quantum systems [Phy. Rev. Lett. 83, 3354 (1999)] we introduce a concise measure of information gain for individual generalized measurements on quantum systems. We obtain basic limits on the weighted sum of information gains over multiple measurements, both with and without memory. Notably, these limits are saturated by arbitrary quantum states under complete sets of mutually unbiased measurements, well capturing Bohr's idea that the totality of complementary properties together is informationally complete. We further elucidate that the wave-particle duality is essentially a special form of information complementarity. Moreover, we explore the implications of IERs for entropic uncertainty relations (EURs). We propose an extended form of R\'{e}nyi EURs that provides lower bounds on the weighted sum of entropies over multiple measurements. Optimizing these weights offers practical advantages without additional quantum costs. | 翻訳日:2023-07-19 00:18:13 公開日:2023-07-15 |
# フィードバックをもつ適応回路におけるエンタングルメントステアリング Entanglement Steering in Adaptive Circuits with Feedback ( http://arxiv.org/abs/2211.05162v4 ) ライセンス: Link先を確認 | Vikram Ravindranath, Yiqiu Han, Zhi-Cheng Yang, Xiao Chen | (参考訳) 強く研究された測定誘起絡み合い相転移は、非単位量子多体ダイナミクスの目印となっている。
通常、そのような遷移は個々の量子軌道のレベルでのみ現れ、測定結果よりも平均化された密度行列には存在しない。
本研究では,両設定で遷移を示すフィードバックを含む適応型ランダム回路モデルについて紹介する。
各測定後、測定結果に応じてユニタリ演算が適用され、平均密度行列を一定の測定しきい値以上の一意な状態に制御する。
興味深いことに、個々の量子軌道における密度行列の遷移と絡み合い遷移は、一般に \textit{different} 臨界測定速度で起こる。
前者の遷移は、古典分岐消滅ランダムウォークプロセスへの明示的なマッピングによりパリティ保存普遍性クラスに属することを実証する。 The intensely studied measurement-induced entanglement phase transition has become a hallmark of non-unitary quantum many-body dynamics. Usually, such a transition only shows up at the level of each individual quantum trajectory, and is absent for the density matrix averaged over measurement outcomes. In this work, we introduce a class of adaptive random circuit models with feedback that exhibit transitions in both settings. After each measurement, a unitary operation is either applied or not depending on the measurement outcome, which steers the averaged density matrix towards a unique state above a certain measurement threshold. Interestingly, the transition for the density matrix and the entanglement transition in the individual quantum trajectory in general happen at \textit{different} critical measurement rates. We demonstrate that the former transition belongs to the parity-conserving universality class by an explicit mapping to a classical branching-annihilating random walk process. | 翻訳日:2023-07-19 00:10:38 公開日:2023-07-15 |
# 典型的な学習可能なタスクの空間の写真 A picture of the space of typical learnable tasks ( http://arxiv.org/abs/2210.17011v3 ) ライセンス: Link先を確認 | Rahul Ramesh, Jialin Mao, Itay Griniasty, Rubing Yang, Han Kheng Teoh, Mark Transtrum, James P. Sethna, Pratik Chaudhari | (参考訳) 我々は,教師付き,メタ型,セミ教師付き,コントラスト型学習を用いて,ディープネットワークが異なるタスクで学習した表現を理解するための情報幾何学的手法を開発した。
We shed light on the following phenomena that relate to the structure of the space of tasks: (1) the manifold of probabilistic models trained on different tasks using different representation learning methods is effectively low-dimensional; (2) supervised learning on one task results in a surprising amount of progress even on seemingly dissimilar tasks; progress on other tasks is larger if the training task has diverse classes; (3) the structure of the space of tasks indicated by our analysis is consistent with parts of the Wordnet phylogenetic tree; (4) episodic meta-learning algorithms and supervised learning traverse different trajectories during training but they fit similar models eventually; (5) contrastive and semi-supervised learning methods traverse trajectories similar to those of supervised learning.
CIFAR-10とImagenetデータセットから構築した分類タスクを用いてこれらの現象を研究する。 We develop information geometric techniques to understand the representations learned by deep networks when they are trained on different tasks using supervised, meta-, semi-supervised and contrastive learning. We shed light on the following phenomena that relate to the structure of the space of tasks: (1) the manifold of probabilistic models trained on different tasks using different representation learning methods is effectively low-dimensional; (2) supervised learning on one task results in a surprising amount of progress even on seemingly dissimilar tasks; progress on other tasks is larger if the training task has diverse classes; (3) the structure of the space of tasks indicated by our analysis is consistent with parts of the Wordnet phylogenetic tree; (4) episodic meta-learning algorithms and supervised learning traverse different trajectories during training but they fit similar models eventually; (5) contrastive and semi-supervised learning methods traverse trajectories similar to those of supervised learning. We use classification tasks constructed from the CIFAR-10 and Imagenet datasets to study these phenomena. | 翻訳日:2023-07-19 00:09:53 公開日:2023-07-15 |
# 伝達可能な畳み込みニューラルネットワークによるマルチターゲット追跡 Multi-Target Tracking with Transferable Convolutional Neural Networks ( http://arxiv.org/abs/2210.15539v3 ) ライセンス: Link先を確認 | Damian Owerko, Charilaos I. Kanatsoulis, Jennifer Bondarchuk, Donald J. Bucci Jr, Alejandro Ribeiro | (参考訳) マルチターゲットトラッキング(multi-target tracking, mtt)は、ノイズセンサ計測から未知数の移動目標の状態を推定することを目的とした、古典的な信号処理タスクである。
本稿では、深層学習の観点からMTTを再検討し、それに取り組むための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
ターゲット状態とセンサ計測を画像として表現し,画像間予測タスクとして再放送する。
そして、小さな追跡領域で完全な畳み込みモデルを訓練し、多数のターゲットとセンサーを持つより広い領域に転送する。
この伝達学習アプローチは、MTTを大規模に実現し、また一般化誤差を束縛する新しい解析によって理論的に支持される。
実際に提案した転送可能なCNNアーキテクチャは、MTTタスクのランダム有限集合フィルタを10のターゲットで上回り、250のターゲットで29%の性能改善を施したMTTタスクに再トレーニングすることなく転送を行う。 Multi-target tracking (MTT) is a classical signal processing task, where the goal is to estimate the states of an unknown number of moving targets from noisy sensor measurements. In this paper, we revisit MTT from a deep learning perspective and propose a convolutional neural network (CNN) architecture to tackle it. We represent the target states and sensor measurements as images and recast the problem as an image-to-image prediction task. Then we train a fully convolutional model at small tracking areas and transfer it to much larger areas with numerous targets and sensors. This transfer learning approach enables MTT at a large scale and is also theoretically supported by our novel analysis that bounds the generalization error. In practice, the proposed transferable CNN architecture outperforms random finite set filters on the MTT task with 10 targets and transfers without re-training to a larger MTT task with 250 targets with a 29% performance improvement. | 翻訳日:2023-07-19 00:09:36 公開日:2023-07-15 |
# 量子カオスと時空間エンタングルメント構造に対応する操作量 An Operational Metric for Quantum Chaos and the Corresponding Spatiotemporal Entanglement Structure ( http://arxiv.org/abs/2210.14926v3 ) ライセンス: Link先を確認 | Neil Dowling and Kavan Modi | (参考訳) カオスシステムは小さな摂動に非常に敏感であり、生物学的科学、物理科学、社会科学にも至る所に存在する。
これを基本原理として、量子カオスの運用概念を構築します。
すなわち、多体孤立量子システムの将来の状態は、そのシステムの小さな部分における過去のマルチタイム操作に敏感である。
感性」とは、2つの異なる摂動状態から得られる状態が互いに容易に変換できないことを意味する。
すなわち、関連する量は最終状態における摂動の影響の複雑さである。
Butterfly Flutter Fidelityと呼ばれるこの直感的な計量から、我々は、カオスに関する一連の操作条件、特に時空間絡みのスケーリングを特定するために、マルチタイム量子プロセスの言語を使用する。
我々の基準はすでに、通常の概念と、量子カオスのよく知られた診断を含んでいる。
これには、Peres-Loschmidt Echo、Dynamical Entropy、Tripartite Mutual Information、Local-Operator Entanglementが含まれる。
したがって、既存の診断を単一の構造内に統一したフレームワークを提供する。
さらに、ランダム回路から発生した進化など、量子カオスにつながるいくつかのメカニズムを定量化する。
本研究は,多体局在化,測定誘起相転移,フロッケダイナミクスなどの多体力学現象を体系的に研究する手法である。 Chaotic systems are highly sensitive to a small perturbation, and are ubiquitous throughout biological sciences, physical sciences and even social sciences. Taking this as the underlying principle, we construct an operational notion for quantum chaos. Namely, we demand that the future state of a many-body, isolated quantum system is sensitive to past multitime operations on a small subpart of that system. By `sensitive', we mean that the resultant states from two different perturbations cannot easily be transformed into each other. That is, the pertinent quantity is the complexity of the effect of the perturbation within the final state. From this intuitive metric, which we call the Butterfly Flutter Fidelity, we use the language of multitime quantum processes to identify a series of operational conditions on chaos, in particular the scaling of the spatiotemporal entanglement. Our criteria already contain the routine notions, as well as the well-known diagnostics for quantum chaos. This includes the Peres-Loschmidt Echo, Dynamical Entropy, Tripartite Mutual Information, and Local-Operator Entanglement. We hence present a unified framework for these existing diagnostics within a single structure. We also go on to quantify how several mechanisms lead to quantum chaos, such as evolution generated from random circuits. Our work paves the way to systematically study many-body dynamical phenomena like Many-Body Localization, measurement-induced phase transitions, and Floquet dynamics. | 翻訳日:2023-07-19 00:09:21 公開日:2023-07-15 |
# ソボレフおよびベソフ空間上の深部ReLUニューラルネットワークの最適近似速度 Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev and Besov Spaces ( http://arxiv.org/abs/2211.14400v3 ) ライセンス: Link先を確認 | Jonathan W. Siegel | (参考訳) \omega = [0,1]^d$ を$\mathbb{r}^d$ の単位立方体とする。
パラメータ数の観点からは、ReLUアクティベーション関数を持つディープニューラルネットワークがソボレフ空間$W^s(L_q(\Omega))$とBesov空間$B^s_r(L_q(\Omega))$の関数に近似し、誤りを$L_p(\Omega)$のノルムで測定する。
この問題は、科学計算や信号処理など、さまざまな分野におけるニューラルネットワークの適用を研究する際に重要であり、これまでは$p=q=\infty$で完全に解決されていた。
私たちの貢献は、上界と下界に漸近的に一致するものを含む、すべての1,\leq p,q\leq \infty$と$s > 0$に対する完全なソリューションを提供することです。
鍵となる技術ツールは、スパースベクトルを最適に符号化する新しいビット抽出技術である。
これにより、$p > q$ の非線形状態において鋭い上限を得ることができる。
また,$p < \infty$ の場合,vc-dimension に基づいて$l_p$-approximation 下限を導出する新しい方法を提案する。
以上の結果から,非常に深いReLUネットワークは,パラメータ数の観点から古典的近似法を著しく上回っているが,これはエンコード不可能なパラメータのコストが原因であることがわかった。 Let $\Omega = [0,1]^d$ be the unit cube in $\mathbb{R}^d$. We study the problem of how efficiently, in terms of the number of parameters, deep neural networks with the ReLU activation function can approximate functions in the Sobolev spaces $W^s(L_q(\Omega))$ and Besov spaces $B^s_r(L_q(\Omega))$, with error measured in the $L_p(\Omega)$ norm. This problem is important when studying the application of neural networks in a variety of fields, including scientific computing and signal processing, and has previously been completely solved only when $p=q=\infty$. Our contribution is to provide a complete solution for all $1\leq p,q\leq \infty$ and $s > 0$, including asymptotically matching upper and lower bounds. The key technical tool is a novel bit-extraction technique which gives an optimal encoding of sparse vectors. This enables us to obtain sharp upper bounds in the non-linear regime where $p > q$. We also provide a novel method for deriving $L_p$-approximation lower bounds based upon VC-dimension when $p < \infty$. Our results show that very deep ReLU networks significantly outperform classical methods of approximation in terms of the number of parameters, but that this comes at the cost of parameters which are not encodable. | 翻訳日:2023-07-19 00:00:19 公開日:2023-07-15 |
# 雑音ラベル付きロングテールインスタンスセグメンテーションのベンチマーク A Benchmark of Long-tailed Instance Segmentation with Noisy Labels ( http://arxiv.org/abs/2211.13435v2 ) ライセンス: Link先を確認 | Guanlin Li, Guowen Xu, Tianwei Zhang | (参考訳) 本稿では、ラベルノイズを含む長い尾を持つデータセットのインスタンスセグメント化タスクについて考察する。
この事件を現実的にする主な理由は2つある。
まず、現実世界から収集されたデータセットは通常、長い尾の分布に従う。
第二に、セグメンテーションデータセットは、1つのイメージに多くのインスタンスがあり、そのいくつかは小さいので、アノテーションにノイズを導入するのが簡単である。
具体的には,ラベルノイズを含む大語彙長尾データセットである新しいデータセットを提案する。
さらに,このデータセット上で提案するインスタンス分割アルゴリズムを評価する。
その結果、トレーニングデータセットのノイズは、希少なカテゴリの学習においてモデルを阻害し、全体的なパフォーマンスを低下させ、この実用的な課題に対処するためのより効果的なアプローチを探求するきっかけとなる。
コードとデータセットはhttps://github.com/GuanlinLee/Noisy-LVISで公開されている。 In this paper, we consider the instance segmentation task on a long-tailed dataset, which contains label noise, i.e., some of the annotations are incorrect. There are two main reasons making this case realistic. First, datasets collected from real world usually obey a long-tailed distribution. Second, for instance segmentation datasets, as there are many instances in one image and some of them are tiny, it is easier to introduce noise into the annotations. Specifically, we propose a new dataset, which is a large vocabulary long-tailed dataset containing label noise for instance segmentation. Furthermore, we evaluate previous proposed instance segmentation algorithms on this dataset. The results indicate that the noise in the training dataset will hamper the model in learning rare categories and decrease the overall performance, and inspire us to explore more effective approaches to address this practical challenge. The code and dataset are available in https://github.com/GuanlinLee/Noisy-LVIS. | 翻訳日:2023-07-18 23:59:30 公開日:2023-07-15 |
# 一時的または永久的欠陥の存在下での量子誤差補正のための適応的表面符号 Adaptive surface code for quantum error correction in the presence of temporary or permanent defects ( http://arxiv.org/abs/2211.08468v2 ) ライセンス: Link先を確認 | Adam Siegel, Armands Strikis, Thomas Flatters, Simon Benjamin | (参考訳) 例えば、宇宙線のような高エネルギー事象のために、製造段階でも量子計算の過程でも、エラー訂正符号を構成する量子ビットは、動作不能にすることができる。
このような欠陥は個々のキュービットやクラスタに対応し、論理的エラーを発生させるのに十分なコードを乱す可能性がある。
本稿では,欠陥格子上の表面符号の量子誤差補正に対する新しい適応的アプローチについて検討する。
適切な欠陥検出アルゴリズムと識別されたゾーンの隔離を組み合わせることで、欠陥の大きさに応じてスケールする量子ビットオーバーヘッドを犠牲にして、有限コードサイズでの量子誤差補正の利点を保てることが示されている。
例えば、論理キュービット毎に小さな欠陥が繰り返し発生する特定のシナリオでは、ノイズしきい値が2.7\%$である(ただし、欠陥のない場合には$.9\$$である)。
これらの結果は、欠陥が避けられない大規模量子コンピュータの実験的な実装への道を開く。 Whether it is at the fabrication stage or during the course of the quantum computation, e.g. because of high-energy events like cosmic rays, the qubits constituting an error correcting code may be rendered inoperable. Such defects may correspond to individual qubits or to clusters and could potentially disrupt the code sufficiently to generate logical errors. In this paper, we explore a novel adaptive approach for surface code quantum error correction on a defective lattice. We show that combining an appropriate defect detection algorithm and a quarantine of the identified zone allows one to preserve the advantage of quantum error correction at finite code sizes, at the cost of a qubit overhead that scales with the size of the defect. Our numerics indicate that the code's threshold need not be significantly affected; for example, for a certain scenario where small defects repeatedly arise in each logical qubit, the noise threshold is $2.7\%$ (versus the defect-free case of $2.9\%$). These results pave the way to the experimental implementation of large-scale quantum computers where defects will be inevitable. | 翻訳日:2023-07-18 23:58:24 公開日:2023-07-15 |
# 好奇心はポリシー検索の多様性を生み出す Curiosity creates Diversity in Policy Search ( http://arxiv.org/abs/2212.03530v2 ) ライセンス: Link先を確認 | Paul-Antoine Le Tolguenec, Emmanuel Rachelson, Yann Besse, Dennis G. Wilson | (参考訳) ポリシーを探すとき、報酬の少ない環境は、どの行動を改善するか、避けるかについての十分な情報がないことが多い。
このような環境では、ポリシー検索プロセスは、報酬を得られる遷移を盲目的に検索することを余儀なくされ、早期報酬は、この探索をいずれかの方向にバイアスすることができない。
これを解決する方法のひとつは、報酬が見つかるまで、本質的なモチベーションを使って新しい移行を探索することだ。
本研究では,最近提案されている進化的政策探索手法における本質的動機づけ,好奇心の定義について述べる。
我々は,キュリオシティを適合度指標として用いる進化戦略であるcuriosity-esを提案する。
私たちは、一般的に使用される多様性の指標である、好奇心とノベルティを比較し、明示的な多様性基準を必要とせずに、キュリオシティが完全なエピソードよりも高い多様性を生み出すことができることを発見し、報酬を得る複数のポリシーに導く。 When searching for policies, reward-sparse environments often lack sufficient information about which behaviors to improve upon or avoid. In such environments, the policy search process is bound to blindly search for reward-yielding transitions and no early reward can bias this search in one direction or another. A way to overcome this is to use intrinsic motivation in order to explore new transitions until a reward is found. In this work, we use a recently proposed definition of intrinsic motivation, Curiosity, in an evolutionary policy search method. We propose Curiosity-ES, an evolutionary strategy adapted to use Curiosity as a fitness metric. We compare Curiosity with Novelty, a commonly used diversity metric, and find that Curiosity can generate higher diversity over full episodes without the need for an explicit diversity criterion and lead to multiple policies which find reward. | 翻訳日:2023-07-18 23:50:55 公開日:2023-07-15 |
# スケーラブルな階層型空中フェデレーション学習 Scalable Hierarchical Over-the-Air Federated Learning ( http://arxiv.org/abs/2211.16162v2 ) ライセンス: Link先を確認 | Seyed Mohammad Azimi-Abarghouyi, Viktoria Fodor | (参考訳) 本研究では,コアサーバや複数のエッジサーバを含む分散セットアップのための通信効率の高い階層型連合学習アルゴリズムを提案する。
異なる学習タスクを仮定すると、同じタスクを持つクラスタが協力する。
このアルゴリズムを無線リンク上で実装するために,エッジサーバやデバイス数によらず,アルゴリズムイテレーション毎に単一のリソースブロックのみを必要とするダウンリンク用の帯域制限されたブロードキャストスキームを備えたアップリンクのためのスケーラブルなクラスタ型over-the-airアグリゲーションスキームを提案する。
このセットアップは、アップリンク内のデバイスの干渉と、厳密にモデル化されるダウンリンク内のエッジサーバの干渉に直面します。
まず,エッジサーバ上のpoissonクラスタプロセスとしてデバイスをモデル化し,その干渉によるアップリンクとダウンリンクのエラー項を定量化することにより,セットアップのための空間モデルを構築した。
そこで本研究では,任意の数の協調クラスタを含む提案アルゴリズムの収束バウンダリを導出する数学的手法を提案する。
最後に,本アルゴリズムは,干渉やデータの不均一性に拘わらず,様々なパラメータに対する高い学習精度を実現するだけでなく,従来の階層学習アルゴリズムを大きく上回っていることを示す。 In this work, we propose a communication-efficient hierarchical federated learning algorithm for distributed setups including core servers and multiple edge servers with clusters of devices. Assuming different learning tasks, clusters with a same task collaborate. To implement the algorithm over wireless links, we propose a scalable clustered over-the-air aggregation scheme for the uplink with a bandwidth-limited broadcast scheme for the downlink that requires only a single resource block for each algorithm iteration, independent of the number of edge servers and devices. This setup is faced with interference of devices in the uplink and interference of edge servers in the downlink that are to be modeled rigorously. We first develop a spatial model for the setup by modeling devices as a Poisson cluster process over the edge servers and quantify uplink and downlink error terms due to the interference. Accordingly, we present a comprehensive mathematical approach to derive the convergence bound for the proposed algorithm including any number of collaborating clusters and provide special cases and design remarks. Finally, we show that despite the interference and data heterogeneity, the proposed algorithm not only achieves high learning accuracy for a variety of parameters but also significantly outperforms the conventional hierarchical learning algorithm. | 翻訳日:2023-07-18 23:48:39 公開日:2023-07-15 |
# AlGaAs[111]QDs系におけるバレンスバンド状態の進化に関する数値的研究 Numerical study of Valence Band states evolution in AlGaAs [111] QDs systems ( http://arxiv.org/abs/2301.03490v2 ) ライセンス: Link先を確認 | M. Lazarev | (参考訳) 量子ドットは、そのユニークな光学特性のために応用の観点から非常に魅力的なナノ構造である。
ナノ構造形状と組成の影響から光学特性と原子価バンド特性を数値的に検討した。
逆ピラミッドにおけるQDの特定のユースケースに適応したLuttinger Kohnモデルを用いて数値シミュレーションを行った。
本稿では,AlGaAsまたはInGaAsナノ構造をモデル化できる4バンドLuttinger Kohnモデルのソースコードについて述べる。
ここでは、GaAs/AlGaAs[111]QDと量子ドット分子(QDM)の光学的性質の研究に焦点を当てる。
電場によるGS偏光の動的制御を実現するため, 地中状態(GS)の光学特性がそれらの構造パラメータに依存することを検証し, QDおよびQDMシステムの最適パラメータを予測する。 Quantum Dots are very attractive nanostructures from an application point of view due to their unique optical properties. Optical properties and Valence Band states character was numerically investigated from the effect of nanostructure geometry and composition. Numerical simulation was carried out using Luttinger Kohn model adapted to the particular use case of QDs in inverted pyramids. We present the source code of the 4 band Luttinger Kohn model that can be used to model AlGaAs or InGaAs nanostructures. Here we focus on the optical properties study of GaAs/AlGaAs [111] QDs and Quantum Dot Molecules (QDMs). We examine the dependence of Ground State (GS) optical properties on their structural parameters and predict optimal parameters of the QD and QDM systems to achieve the dynamic control of GS polarization by the applied electric field. | 翻訳日:2023-07-18 23:40:30 公開日:2023-07-15 |
# ほぼ最適非パラメトリックシーケンステストと依存性のある観測による信頼度シーケンス Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences with Possibly Dependent Observations ( http://arxiv.org/abs/2212.14411v2 ) ライセンス: Link先を確認 | Aurelien Bibaut, Nathan Kallus, Michael Lindon | (参考訳) 任意の停止時間で有効な逐次テストとそのインプリート信頼シーケンスは、柔軟な統計的推測とオンザフライ決定を約束する。
しかし、強い保証は、実際には未発見のパラメトリックシーケンシャルテストや、過剰にカバーし、最適な拒絶時間を持つ濃度境界ベースのシーケンスに限られる。
本研究では, \cite{robbins 1970boundary} の遅延開始正規混合確率比テストについて検討し,一般の非パラメトリックデータ生成プロセスにおいて,漸近的型-i-error と期待-rejection-time の保証を行う。
type-i-errorの結果は、主にmartingaleの強い不変性原理を活用し、これらのテスト(およびそれらの暗黙の信頼度列)が所望の$\alpha$-レベルに近づくtype-iエラー率を持つことを保証する。
期待排除時間の結果は、主に it\^o の補題に触発された同一性を利用しており、特定の漸近的な方法では、期待拒否時間は $\alpha$ レベルのテストの中で最小に近づくことを暗示している。
平均治療効果などの方程式を推定したパラメータの逐次推定に本結果を適用する方法を示す。
この結果から,これらの実験を汎用性,非パラメトリック性,準最適性として確立した。
これを数値実験で説明する。 Sequential tests and their implied confidence sequences, which are valid at arbitrary stopping times, promise flexible statistical inference and on-the-fly decision making. However, strong guarantees are limited to parametric sequential tests that under-cover in practice or concentration-bound-based sequences that over-cover and have suboptimal rejection times. In this work, we consider \cite{robbins1970boundary}'s delayed-start normal-mixture sequential probability ratio tests, and we provide the first asymptotic type-I-error and expected-rejection-time guarantees under general non-parametric data generating processes, where the asymptotics are indexed by the test's burn-in time. The type-I-error results primarily leverage a martingale strong invariance principle and establish that these tests (and their implied confidence sequences) have type-I error rates approaching a desired $\alpha$-level. The expected-rejection-time results primarily leverage an identity inspired by It\^o's lemma and imply that, in certain asymptotic regimes, the expected rejection time approaches the minimum possible among $\alpha$-level tests. We show how to apply our results to sequential inference on parameters defined by estimating equations, such as average treatment effects. Together, our results establish these (ostensibly parametric) tests as general-purpose, non-parametric, and near-optimal. We illustrate this via numerical experiments. | 翻訳日:2023-07-18 23:40:02 公開日:2023-07-15 |
# 複雑な推論のための構造推論と言語モデル事前学習 Unifying Structure Reasoning and Language Model Pre-training for Complex Reasoning ( http://arxiv.org/abs/2301.08913v2 ) ライセンス: Link先を確認 | Siyuan Wang, Zhongyu Wei, Jiarong Xu, Taishan Li, Zhihao Fan | (参考訳) 近年,基礎推論技術を備えた事前学習型言語モデル (PLM) は,下流の複雑なタスクにおいて顕著な性能を示した。
しかし、テキスト内の暗黙構造情報をモデル化し、その結論を導出するために論理的論理的推論を行うという、重要な構造推論技術はほとんど研究されていない。
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。
まず、コンテクスト内のいくつかの基本構造を特定して構造化クエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。
テキスト意味論と構造推論の融合は、PLMが学習した文脈表現を用いて構造表現空間を初期化し、この意味表現空間を段階的に推論することで達成される。
4つのデータセットに対する実験結果から,提案モデルが多様な構造を含む複雑な推論タスクにおいて顕著な改善を実現し,訓練データに制限のある下流タスクへの転送可能性を示し,KGsの複雑な推論の有効性を示す。 Recent pre-trained language models (PLMs) equipped with foundation reasoning skills have shown remarkable performance on downstream complex tasks. However, the significant structure reasoning skill has been rarely studied, which involves modeling implicit structure information within the text and performing explicit logical reasoning over them to deduce the conclusion. This paper proposes a unified learning framework that combines explicit structure reasoning and language pre-training to endow PLMs with the structure reasoning skill. It first identifies several elementary structures within contexts to construct structured queries and performs step-by-step reasoning along the queries to identify the answer entity. The fusion of textual semantics and structure reasoning is achieved by using contextual representations learned by PLMs to initialize the representation space of structures, and performing stepwise reasoning on this semantic representation space. Experimental results on four datasets demonstrate that the proposed model achieves significant improvements in complex reasoning tasks involving diverse structures, and shows transferability to downstream tasks with limited training data and effectiveness for complex reasoning of KGs modality. | 翻訳日:2023-07-18 23:30:54 公開日:2023-07-15 |
# Explicit3D:Single Image 3D Object Detectionのための空間推論付きグラフネットワーク Explicit3D: Graph Network with Spatial Inference for Single Image 3D Object Detection ( http://arxiv.org/abs/2302.06494v2 ) ライセンス: Link先を確認 | Yanjun Liu and Wenming Yang | (参考訳) 屋内の3d物体検出は、単一の画像シーン理解において必須の課題であり、視覚推論において基本的に空間認知に影響を与える。
単一の画像からの3dオブジェクト検出に関する既存の作業は、各オブジェクトの独立した予測を通じてこの目標を追求するか、すべての可能なオブジェクトを暗黙的に推論し、オブジェクト間の関係幾何学的情報を活用できないかのどちらかである。
この問題に対処するために,オブジェクトの幾何学的特徴と意味論的特徴に基づくExplicit3Dという動的スパースグラフパイプラインを提案する。
効率を考慮し、関連性スコアを定義し、新しい動的プルーニングアルゴリズムを設計し、続いてスパースシーングラフの生成と更新のためのクラスタサンプリング手法を設計する。
さらに, 対象対間の空間差を明示的にモデル化するために, 均質行列を導入し, 新しい相対損失とコーナー損失を定義した。
接地トラスラベルを直接監督する代わりに、我々の相対損失とコーナー損失は、物体間の幾何的整合性を学ぶためのモデルである同質な変換から導かれる。
SUN RGB-Dデータセットの実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。 Indoor 3D object detection is an essential task in single image scene understanding, impacting spatial cognition fundamentally in visual reasoning. Existing works on 3D object detection from a single image either pursue this goal through independent predictions of each object or implicitly reason over all possible objects, failing to harness relational geometric information between objects. To address this problem, we propose a dynamic sparse graph pipeline named Explicit3D based on object geometry and semantics features. Taking the efficiency into consideration, we further define a relatedness score and design a novel dynamic pruning algorithm followed by a cluster sampling method for sparse scene graph generation and updating. Furthermore, our Explicit3D introduces homogeneous matrices and defines new relative loss and corner loss to model the spatial difference between target pairs explicitly. Instead of using ground-truth labels as direct supervision, our relative and corner loss are derived from the homogeneous transformation, which renders the model to learn the geometric consistency between objects. The experimental results on the SUN RGB-D dataset demonstrate that our Explicit3D achieves better performance balance than the-state-of-the-art. | 翻訳日:2023-07-18 23:19:40 公開日:2023-07-15 |
# テキスト画像モデルにおける簡単なゼロショットプロンプト重み付け手法 A Simple Zero-shot Prompt Weighting Technique to Improve Prompt Ensembling in Text-Image Models ( http://arxiv.org/abs/2302.06235v2 ) ライセンス: Link先を確認 | James Urquhart Allingham, Jie Ren, Michael W Dusenberry, Xiuye Gu, Yin Cui, Dustin Tran, Jeremiah Zhe Liu, Balaji Lakshminarayanan | (参考訳) 対照的に、訓練されたテキストイメージモデルは、ゼロショット分類を行うという驚くべき能力を持っている。
しかし、これらのゼロショット分類器は高い精度を達成するために迅速な工学を必要とする。
プロンプトエンジニアリングは通常、下流の個々のタスクに一連のプロンプトを手作りする必要がある。
本研究では,このプロンプトエンジニアリングの自動化と,プロンプトアンサンブルによるゼロショット精度の向上を目指す。
特に、"大きなプロンプトプールがあれば、ラベル付きバリデーションデータへのアクセスを必要とせずに、自動的にプロンプトをスコアし、特定の下流データセットに最も適したプロンプトをアンサンブルできますか?
これが可能であることを実証する。
そこで本研究では,プレトレーニングおよびテストデータにおいて,バイアスによりスコアが過信し易いナイーブ・プロンプト・スコアリング法において,いくつかの病理を同定し,バイアスを補正する新しいプロンプト・スコアリング法を提案する。
提案したスコアリング手法を用いて平均アンサンブルを重み付けした平均アンサンブルを生成し,手作りのプロンプト,ImageNet,4つの変種,11のきめ細かい分類ベンチマークにおいて,ラベル付きバリデーションデータへのアクセスを必要とせず,完全自動,最適化不要,かつ,全精度で性能を向上する。 Contrastively trained text-image models have the remarkable ability to perform zero-shot classification, that is, classifying previously unseen images into categories that the model has never been explicitly trained to identify. However, these zero-shot classifiers need prompt engineering to achieve high accuracy. Prompt engineering typically requires hand-crafting a set of prompts for individual downstream tasks. In this work, we aim to automate this prompt engineering and improve zero-shot accuracy through prompt ensembling. In particular, we ask "Given a large pool of prompts, can we automatically score the prompts and ensemble those that are most suitable for a particular downstream dataset, without needing access to labeled validation data?". We demonstrate that this is possible. In doing so, we identify several pathologies in a naive prompt scoring method where the score can be easily overconfident due to biases in pre-training and test data, and we propose a novel prompt scoring method that corrects for the biases. Using our proposed scoring method to create a weighted average prompt ensemble, our method outperforms equal average ensemble, as well as hand-crafted prompts, on ImageNet, 4 of its variants, and 11 fine-grained classification benchmarks, all while being fully automatic, optimization-free, and not requiring access to labeled validation data. | 翻訳日:2023-07-18 23:18:23 公開日:2023-07-15 |
# 絡み込み抑制による自然崩壊 Spontaneous collapse by entanglement suppression ( http://arxiv.org/abs/2303.00697v3 ) ライセンス: Link先を確認 | Eyal Buks | (参考訳) 非線形項を付加した最近提案された修正Schr\"{o}dinger方程式について検討し, 絡み合いを引き起こす。
量子測定のプロセスは、一対の結合スピンの場合のために探索される。
修正Schr\"{o}dinger方程式によって生成される決定論的時間進化は、波動関数の崩壊の過程を模倣する。
付加雑音は測定過程において確率性を引き起こす。
因果性と分離性の両方の原理との衝突は、非線形項はサブシステム間の相互作用の間のみアクティブであると仮定することで回避できる。
さらに、絡み合いがない場合、標準量子力学の全ての予測は、追加の非線形項の影響を受けない。 We study a recently proposed modified Schr\"{o}dinger equation having an added nonlinear term, which gives rise to disentanglement. The process of quantum measurement is explored for the case of a pair of coupled spins. We find that the deterministic time evolution generated by the modified Schr\"{o}dinger equation mimics the process of wavefunction collapse. Added noise gives rise to stochasticity in the measurement process. Conflict with both principles of causality and separability can be avoided by postulating that the nonlinear term is active only during the time when subsystems interact. Moreover, in the absence of entanglement, all predictions of standard quantum mechanics are unaffected by the added nonlinear term. | 翻訳日:2023-07-18 23:11:16 公開日:2023-07-15 |
# 正規化ニューラルネットワークは人間の洞察を模倣する Regularised neural networks mimic human insight ( http://arxiv.org/abs/2302.11351v2 ) ライセンス: Link先を確認 | Anika T. L\"owe, L\'eo Touzo, Paul S. Muhle-Karbe, Andrew M. Saxe, Christopher Summerfield, Nicolas W. Schuck | (参考訳) 人間は時々、洞察の瞬間に結びついているタスクパフォーマンスの突然の改善を示す。
このような洞察に関連したパフォーマンス改善は、期間の延長が先行し、異常に突然であり、一部の学習者(すべてではないが)にのみ発生するため、特別に見える。
ここでは,勾配降下アルゴリズムを用いて学習したニューラルネットワークにおいて,洞察的行動も発生するかどうかを問う。
人間の学習ダイナミクスと、より効率的に解くための隠れた機会を提供する知覚的意思決定タスクにおける正規化ニューラルネットワークを比較した。
我々は、人間が徐々にではなく、洞察を通してこの規則性を発見する傾向があることを示した。
特に、正規化ゲート変調を持つニューラルネットワークは、人間の洞察の行動特性を密接に模倣し、洞察の遅延、突然性、選択的発生を示す。
ネットワーク学習のダイナミクスの分析によると、洞察的行動は勾配更新に付加されるノイズに決定的に依存しており、最初は正規化(意図的)ゲーティングによって抑制された「サイレント・ナレッジ」が先行していた。
これは、音、注意ゲーティング、正規化の複合的な影響を反映した段階的な学習から、洞察が自然に生まれることを示唆している。 Humans sometimes show sudden improvements in task performance that have been linked to moments of insight. Such insight-related performance improvements appear special because they are preceded by an extended period of impasse, are unusually abrupt, and occur only in some, but not all, learners. Here, we ask whether insight-like behaviour also occurs in artificial neural networks trained with gradient descent algorithms. We compared learning dynamics in humans and regularised neural networks in a perceptual decision task that provided a hidden opportunity which allowed to solve the task more efficiently. We show that humans tend to discover this regularity through insight, rather than gradually. Notably, neural networks with regularised gate modulation closely mimicked behavioural characteristics of human insights, exhibiting delay of insight, suddenness and selective occurrence. Analyses of network learning dynamics revealed that insight-like behaviour crucially depended on noise added to gradient updates, and was preceded by ``silent knowledge'' that is initially suppressed by regularised (attentional) gating. This suggests that insights can arise naturally from gradual learning, where they reflect the combined influences of noise, attentional gating and regularisation. | 翻訳日:2023-07-18 23:09:55 公開日:2023-07-15 |
# 高速オープンボキャブラリーセグメンテーションのためのグローバル知識キャリブレーション Global Knowledge Calibration for Fast Open-Vocabulary Segmentation ( http://arxiv.org/abs/2303.09181v2 ) ライセンス: Link先を確認 | Kunyang Han, Yong Liu, Jun Hao Liew, Henghui Ding, Yunchao Wei, Jiajun Liu, Yitong Wang, Yansong Tang, Yujiu Yang, Jiashi Feng, Yao Zhao | (参考訳) CLIPのような事前学習された視覚言語モデルの最近の進歩により、テキスト入力のみから任意の概念のセグメンテーションが可能になった。
しかし、既存のOVS技術は基本的な課題に直面しており、訓練された分類器はトレーニング中に観察される基本クラスに過度に適合する傾向にあり、その結果、見当たらないクラスに最適化性能をもたらす。
この問題を軽減するために、最近の研究は、分類のために追加の凍結事前訓練クリップの使用を提案している。
それでもこのアプローチは、CLIPビジョンエンコーダを各マスクに対して繰り返し前方通過する必要があるため、計算上のオーバーヘッドを発生させるため、現実のアプリケーションでは現実的ではない。
この課題に対処するため、我々の目標は、推論中にCLIP画像エンコーダの余分な計算負担を伴わずに、コンパチブルまたはより優れた動作が可能な高速OVSモデルを開発することである。
そこで本研究では,既知のクラスを微調整する場合に一般化表現を保存するという基本概念を提案する。
具体的には,各学習カテゴリの同義語群を生成するテキスト多様化戦略を導入し,学習した表現が特定のカテゴリ名に衝突しないようにする。
さらに,CLIPの一般化可能な知識を保存するために,テキスト誘導型知識蒸留法を採用した。
大規模な実験により,提案モデルが様々なデータセットにまたがる堅牢な一般化性能を実現することを示す。
さらに,オープン語彙ビデオセグメンテーションの予備検討を行い,ビデオ領域におけるオープン語彙研究を促進するためのベンチマークを示す。 Recent advancements in pre-trained vision-language models, such as CLIP, have enabled the segmentation of arbitrary concepts solely from textual inputs, a process commonly referred to as open-vocabulary semantic segmentation (OVS). However, existing OVS techniques confront a fundamental challenge: the trained classifier tends to overfit on the base classes observed during training, resulting in suboptimal generalization performance to unseen classes. To mitigate this issue, recent studies have proposed the use of an additional frozen pre-trained CLIP for classification. Nonetheless, this approach incurs heavy computational overheads as the CLIP vision encoder must be repeatedly forward-passed for each mask, rendering it impractical for real-world applications. To address this challenge, our objective is to develop a fast OVS model that can perform comparably or better without the extra computational burden of the CLIP image encoder during inference. To this end, we propose a core idea of preserving the generalizable representation when fine-tuning on known classes. Specifically, we introduce a text diversification strategy that generates a set of synonyms for each training category, which prevents the learned representation from collapsing onto specific known category names. Additionally, we employ a text-guided knowledge distillation method to preserve the generalizable knowledge of CLIP. Extensive experiments demonstrate that our proposed model achieves robust generalization performance across various datasets. Furthermore, we perform a preliminary exploration of open-vocabulary video segmentation and present a benchmark that can facilitate future open-vocabulary research in the video domain. | 翻訳日:2023-07-18 23:01:20 公開日:2023-07-15 |
# ロバストなトランジッションレス量子駆動:連結アプローチ Robust transitionless quantum driving: Concatenated approach ( http://arxiv.org/abs/2303.04422v2 ) ライセンス: Link先を確認 | Zhi-Cheng Shi, Cheng Zhang, Li-Tuo Shen, Jie Song, Yan Xia, and X. X. Yi | (参考訳) 本稿では, パルス持続時間, パルス振幅, 微調整, スタークシフトなどによって誘導されるあらゆる系統的エラーに対して, 断熱条件によらず頑健な過渡的量子駆動を実現するための一貫したアプローチを提案する。
現在のアプローチは任意の形状の時間依存パルスに対して特に効率的であり、適切に変調するにはパルス間の位相差のみが必要である。
パルス整形技術や余分なパルスを使わずに簡単な物理的実装は、このアプローチを非常に普遍的にし、時間依存のハミルトニアンによる堅牢な量子制御の道筋を提供する。 We propose a concatenated approach for implementing transitionless quantum driving regardless of adiabatic conditions while being robustness with respect to all kinds of systematic errors induced by pulse duration, pulse amplitude, detunings, and Stark shift, etc. The current approach is particularly efficient for all time-dependent pulses with arbitrary shape, and only the phase differences between pulses is required to properly modulate. The simple physical implementation without the help of pulse shaping techniques or extra pulses makes this approach quite universal and provides a different avenue for robust quantum control by the time-dependent Hamiltonian. | 翻訳日:2023-07-18 22:59:09 公開日:2023-07-15 |
# ラベルなしデータによるグラディエントフリー構造化プルーニング Gradient-Free Structured Pruning with Unlabeled Data ( http://arxiv.org/abs/2303.04185v2 ) ライセンス: Link先を確認 | Azade Nova, Hanjun Dai, Dale Schuurmans | (参考訳) 大規模言語モデル(LLM)は、多くのドメインにわたる困難なタスクを解決する上で大きな成功を収めていますが、その成功には高い計算コストと推論遅延が伴います。
開発者やサードパーティがこれらのモデルをカスタマイズするにつれて、効率的な推論の必要性が高まっている。
多くの試みがプルーニングや蒸留といったモデル圧縮技術によって推論コストを削減しようとしている。
しかし、これらの技術はラベル付きデータを必要とするか、あるいは圧縮されたモデルが精度を取り戻すために再訓練される必要があるため、時間を要する。
本稿では,ラベルなしデータのみを使用する勾配フリー構造プルーニングフレームワークを提案する。
BERT$_{BASE}$とDistilBERTを用いたGLUEおよびSQuADベンチマークの評価は,提案手法の有効性を示す。
トレーニング済みのモデルとラベルなしデータの重みのみを使用することで、単一のGPU上で数分で、検討されたすべてのタスクで最大40%のFLOPカウントを4%未満の精度で削減することができる。 Large Language Models (LLMs) have achieved great success in solving difficult tasks across many domains, but such success comes with a high computation cost, and inference latency. As developers and third parties customize these models, the need to provide efficient inference has increased. Many efforts have attempted to reduce inference cost through model compression techniques such as pruning and distillation. However, these techniques either require labeled data, or are time-consuming as they require the compressed model to be retrained to regain accuracy. In this paper, we propose a gradient-free structured pruning framework that uses only unlabeled data. An evaluation on the GLUE and SQuAD benchmarks using BERT$_{BASE}$ and DistilBERT illustrates the effectiveness of the proposed approach. By only using the weights of the pre-trained model and unlabeled data, in a matter of a few minutes on a single GPU, up to 40% of the original FLOP count can be reduced with less than a 4% accuracy loss across all tasks considered. | 翻訳日:2023-07-18 22:58:57 公開日:2023-07-15 |
# 埋め込み変調によるオープンボキャブラリパノプティックセグメンテーション Open-vocabulary Panoptic Segmentation with Embedding Modulation ( http://arxiv.org/abs/2303.11324v2 ) ライセンス: Link先を確認 | Xi Chen, Shuang Li, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao | (参考訳) オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズドボキャブラリセグメンテーション法は新規なオブジェクトを特徴づけることができないが、最近のいくつかのオープンボキャブラリ試みは不満足な結果をもたらす。
そこで我々は,open-vocabulary panoptic segmentationのための全能性とデータ効率のよいフレームワークopsnetを提案する。
特に、精巧に設計された埋め込み変調モジュールは、いくつかの注意深いコンポーネントと共に、セグメンテーションモデルと視覚的に言語性の良いクリップエンコーダとの間の適切な埋め込み拡張および情報交換を可能にし、より少ない追加データで、オープンおよびクローズドボキャブラリー設定下でのセグメンテーション性能を向上させる。
様々な状況下で複数のデータセット(COCO,ADE20K,Cityscapes,PascalContextなど)で大規模な実験評価を行い,提案手法の有効性と汎用性を実証した。
コードとトレーニングされたモデルは公開されます。 Open-vocabulary image segmentation is attracting increasing attention due to its critical applications in the real world. Traditional closed-vocabulary segmentation methods are not able to characterize novel objects, whereas several recent open-vocabulary attempts obtain unsatisfactory results, i.e., notable performance reduction on the closed vocabulary and massive demand for extra data. To this end, we propose OPSNet, an omnipotent and data-efficient framework for Open-vocabulary Panoptic Segmentation. Specifically, the exquisitely designed Embedding Modulation module, together with several meticulous components, enables adequate embedding enhancement and information exchange between the segmentation model and the visual-linguistic well-aligned CLIP encoder, resulting in superior segmentation performance under both open- and closed-vocabulary settings with much fewer need of additional data. Extensive experimental evaluations are conducted across multiple datasets (e.g., COCO, ADE20K, Cityscapes, and PascalContext) under various circumstances, where the proposed OPSNet achieves state-of-the-art results, which demonstrates the effectiveness and generality of the proposed approach. The code and trained models will be made publicly available. | 翻訳日:2023-07-18 22:51:46 公開日:2023-07-15 |
# 計算予算付き連続学習:何が重要か? Computationally Budgeted Continual Learning: What Does Matter? ( http://arxiv.org/abs/2303.11165v2 ) ライセンス: Link先を確認 | Ameya Prabhu, Hasan Abed Al Kader Hammoud, Puneet Dokania, Philip H.S. Torr, Ser-Nam Lim, Bernard Ghanem, Adel Bibi | (参考訳) CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布が異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約はない。
これは、ストレージではなく、主に計算と時間予算によって制約される、ワイルドなアプリケーションには当てはまらない。
我々は,この問題を大規模ベンチマークで再検討し,計算制約付き環境での従来のCLアプローチの性能を解析する。
我々は,データインクリメンタル,クラスインクリメンタル,タイムインクリメンタルの2つの大規模データセットであるImageNet2KとContinuous Google Landmarks V2について,CLサンプリング戦略,蒸留損失,部分微調整の評価実験を行った。
1500以上のgpu時間を超える大規模な実験を通じて、計算に制約された設定では、従来のclアプローチは、例外なく、メモリから一様にサンプルされる単純な最小ベースラインを上回ってはいないことが分かりました。
私たちの結論は、20から200といったさまざまなストリームタイムステップや、いくつかの計算予算の下で一貫しています。
これは、既存のCLメソッドの多くは、現実的な予算展開には計算コストが高すぎることを示唆している。
このプロジェクトのコードは、https://github.com/drimpossible/BudgetCLで入手できる。 Continual Learning (CL) aims to sequentially train models on streams of incoming data that vary in distribution by preserving previous knowledge while adapting to new data. Current CL literature focuses on restricted access to previously seen data, while imposing no constraints on the computational budget for training. This is unreasonable for applications in-the-wild, where systems are primarily constrained by computational and time budgets, not storage. We revisit this problem with a large-scale benchmark and analyze the performance of traditional CL approaches in a compute-constrained setting, where effective memory samples used in training can be implicitly restricted as a consequence of limited computation. We conduct experiments evaluating various CL sampling strategies, distillation losses, and partial fine-tuning on two large-scale datasets, namely ImageNet2K and Continual Google Landmarks V2 in data incremental, class incremental, and time incremental settings. Through extensive experiments amounting to a total of over 1500 GPU-hours, we find that, under compute-constrained setting, traditional CL approaches, with no exception, fail to outperform a simple minimal baseline that samples uniformly from memory. Our conclusions are consistent in a different number of stream time steps, e.g., 20 to 200, and under several computational budgets. This suggests that most existing CL methods are particularly too computationally expensive for realistic budgeted deployment. Code for this project is available at: https://github.com/drimpossible/BudgetCL. | 翻訳日:2023-07-18 22:51:02 公開日:2023-07-15 |
# 不確実性マイニングと知識埋め込みによる無人運転注意予測 Unsupervised Self-Driving Attention Prediction via Uncertainty Mining and Knowledge Embedding ( http://arxiv.org/abs/2303.09706v3 ) ライセンス: Link先を確認 | Pengfei Zhu, Mengshi Qi, Xia Li, Weijian Li and Huadong Ma | (参考訳) 関心のある注意領域を予測することは、自動運転システムにとって重要な課題である。
既存の手法は、労働集約的な大規模ラベル付きトラフィックデータセットに依存している。
さらに、現在のデータセットにおける自然なシーンとトラフィックシーンの間の大きなドメインギャップは、モデルトレーニングの可能性を制限する。
これらの課題に対処するため、我々は、不確実性モデリングと知識統合の推進により、自動運転の注意を予測できる教師なしの方法を導入する。
提案手法のUncertainty Mining Branch (UMB) は, 自然環境下で事前学習したモデルから得られた複数の擬似ラベルの共通点と相違点を, 積極的に不確実性を測定することによって検出する。
一方、我々の知識埋め込みブロック(keb)は、生成された擬似ラベルを適応的に洗練するために、駆動知識を組み込んでドメインギャップを橋渡しします。
3つの公開データセットすべてで完全に監視された最先端のアプローチと比較して、同等あるいはさらに印象的なパフォーマンスを持つ定量的、質的結果が、提案手法の有効性とこの方向の可能性を示している。
コードは公開される予定だ。 Predicting attention regions of interest is an important yet challenging task for self-driving systems. Existing methodologies rely on large-scale labeled traffic datasets that are labor-intensive to obtain. Besides, the huge domain gap between natural scenes and traffic scenes in current datasets also limits the potential for model training. To address these challenges, we are the first to introduce an unsupervised way to predict self-driving attention by uncertainty modeling and driving knowledge integration. Our approach's Uncertainty Mining Branch (UMB) discovers commonalities and differences from multiple generated pseudo-labels achieved from models pre-trained on natural scenes by actively measuring the uncertainty. Meanwhile, our Knowledge Embedding Block (KEB) bridges the domain gap by incorporating driving knowledge to adaptively refine the generated pseudo-labels. Quantitative and qualitative results with equivalent or even more impressive performance compared to fully-supervised state-of-the-art approaches across all three public datasets demonstrate the effectiveness of the proposed method and the potential of this direction. The code will be made publicly available. | 翻訳日:2023-07-18 22:49:58 公開日:2023-07-15 |
# p+:テキストから画像へのコンディショニングの拡張 P+: Extended Textual Conditioning in Text-to-Image Generation ( http://arxiv.org/abs/2303.09522v3 ) ライセンス: Link先を確認 | Andrey Voynov, Qinghao Chu, Daniel Cohen-Or, Kfir Aberman | (参考訳) テキストから画像への拡張テキスト条件空間($P+$)を導入する。
この空間は層間プロンプトから導かれる複数のテキスト条件で構成され、それぞれ拡散モデルのデノイングUネットの層に対応する。
拡張空間は画像合成の非結合性と制御性が向上することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
XTI は表現的かつ正確であり,元の Textual Inversion (TI) 空間よりも高速に収束することを示す。
拡張反転法は、再構成と編集可能性の間の明らかなトレードオフを含まず、より規則的な反転を引き起こす。
テキスト・ツー・イメージ・モデルのパーソナライズのための手法の有効性を実証するため,新しい空間の特性を分析し,理解するための広範囲な実験を行った。
さらに、この空間のユニークな特性を利用して、テキストから画像へのモデルを用いたオブジェクトスタイルの混合において、これまで達成できなかった結果を得る。
プロジェクトページ: https://prompt-plus.github.io We introduce an Extended Textual Conditioning space in text-to-image models, referred to as $P+$. This space consists of multiple textual conditions, derived from per-layer prompts, each corresponding to a layer of the denoising U-net of the diffusion model. We show that the extended space provides greater disentangling and control over image synthesis. We further introduce Extended Textual Inversion (XTI), where the images are inverted into $P+$, and represented by per-layer tokens. We show that XTI is more expressive and precise, and converges faster than the original Textual Inversion (TI) space. The extended inversion method does not involve any noticeable trade-off between reconstruction and editability and induces more regular inversions. We conduct a series of extensive experiments to analyze and understand the properties of the new space, and to showcase the effectiveness of our method for personalizing text-to-image models. Furthermore, we utilize the unique properties of this space to achieve previously unattainable results in object-style mixing using text-to-image models. Project page: https://prompt-plus.github.io | 翻訳日:2023-07-18 22:49:32 公開日:2023-07-15 |
# 第四次信頼性統計を用いた量子符号の伝播デコードについて On Belief Propagation Decoding of Quantum Codes with Quaternary Reliability Statistics ( http://arxiv.org/abs/2305.03321v2 ) ライセンス: Link先を確認 | Ching-Feng Kung, Kao-Yueh Kuo, and Ching-Yi Lai | (参考訳) 本稿では,量子コードの順序統計復号化(OSD)における4次信頼性統計の利用について検討する。
OSDは、エラーシンドロームの修正に失敗した場合に、信念伝達(BP)復号の性能を向上させるために使用できる。
BPが出力する第四次信頼性情報とハード決定履歴を利用してOSDの信頼性ソートを行う手法を提案する。
このアプローチは、ソートステップ中にX/Z相関を保存することにより、XとZのエラーを別々に扱う従来の方法を改善する。
シミュレーションの結果,スカラーメッセージを用いた改良BPとOSDは,従来のBP-OSDの組み合わせよりも優れていた。
我々は、トーリック、サーフェス、XZX符号で約17.5%--17.7%、六角形の平面カラー符号で15.42%の閾値を達成した。 In this paper, we investigate the use of quaternary reliability statistics for ordered statistics decoding (OSD) of quantum codes. OSD can be used to improve the performance of belief propagation (BP) decoding when it fails to correct the error syndrome. We propose an approach that leverages quaternary reliability information and the hard-decision history output by BP to perform reliability sorting for OSD. This approach improves upon previous methods that separately treat X and Z errors, by preserving the X/Z correlations during the sorting step. Our simulations show that the refined BP with scalar messages and the proposed OSD outperforms previous BP-OSD combinations. We achieve thresholds of roughly 17.5%--17.7% for toric, surface, and XZZX codes, and 15.42% for hexagonal planar color codes. | 翻訳日:2023-07-18 22:31:15 公開日:2023-07-15 |
# SCOTT: 自己持続型耐火鎖蒸留 SCOTT: Self-Consistent Chain-of-Thought Distillation ( http://arxiv.org/abs/2305.01879v3 ) ライセンス: Link先を確認 | Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang Ren | (参考訳) 大規模な言語モデル(LM)は、チェーン・オブ・シークレット(CoT)のプロンプトを通じて、予測のための自由テキスト論理を創発的に生成する能力を示している。
CoTは劇的に性能が向上するが、そのような利得は十分に大きなLMに対してのみ観測される。
さらには、生成された合理性がlmの予測と一致しているか、あるいは決定を忠実に正当化する保証がほとんどない。
本研究では,教師モデルから,規模が桁違いの小さい自己整合CoTモデルを学習するための,忠実な知識蒸留法を提案する。
教師は, より優れた指導を行うために, 対照的な復号化によって, 大規模LM(教師)から金の回答を支持する合理性を付与し, 回答が検討された場合にのみ, より信頼性の高いトークンを生成するように促す。
忠実な蒸留を確保するために,教師生成の合理性を用いて,非事実的推論目的の学生lmを学習し,その合理性を無視して矛盾する予測を行うことを防止する。
実験により, エンドタスク性能に匹敵する結果が得られる一方で, ベースラインよりも忠実なCoT論理を生成できることがわかった。
さらなる分析は、そのようなモデルが決定を下す際に、より合理的を尊重していることを示唆している。 Large language models (LMs) beyond a certain scale, demonstrate the emergent capability of generating free-text rationales for their predictions via chain-of-thought (CoT) prompting. While CoT can yield dramatically improved performance, such gains are only observed for sufficiently large LMs. Even more concerning, there is little guarantee that the generated rationales are consistent with LM's predictions or faithfully justify the decisions. In this work, we propose a faithful knowledge distillation method to learn a small, self-consistent CoT model from a teacher model that is orders of magnitude larger. To form better supervision, we elicit rationales supporting the gold answers from a large LM (teacher) by contrastive decoding, which encourages the teacher to generate tokens that become more plausible only when the answer is considered. To ensure faithful distillation, we use the teacher-generated rationales to learn a student LM with a counterfactual reasoning objective, which prevents the student from ignoring the rationales to make inconsistent predictions. Experiments show that, while yielding comparable end-task performance, our method can generate CoT rationales that are more faithful than baselines do. Further analysis suggests that such a model respects the rationales more when making decisions; thus, we can improve its performance more by refining its rationales. | 翻訳日:2023-07-18 22:30:13 公開日:2023-07-15 |
# MRN:増分多言語テキスト認識のための多重ルーティングネットワーク MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition ( http://arxiv.org/abs/2305.14758v2 ) ライセンス: Link先を確認 | Tianlun Zheng, Zhineng Chen, BingChen Huang, Wei Zhang and Yu-Gang Jiang | (参考訳) 従来のMLTR(Multilingual Text Recognition)は通常、固定された言語をターゲットとしており、新たに追加された言語を扱うか、絶えず変化するクラス分布に適応するのに苦労している。
本稿では、新しい言語データがバッチに含まれるインクリメンタル学習環境において、インクリメンタル多言語テキスト認識(imltr)タスクを導入する。
一般的な漸進学習と比較して、IMLTRはリハーサル・アンバランス(リハーサルセットにおけるサンプル文字の不均一な分布)に悩まされているため、さらに難しい。
この問題に対処するために,各言語に対して一連の認識器を訓練するMultiplexed Routing Network (MRN)を提案する。
その後、言語予測器を採用し、投票の認識者を評価する。
認識器は元のモデルから派生しているため、MRNは古いデータへの依存を効果的に減らし、リハーサル不均衡に適している。
MLT17 と MLT19 のデータセット上で MRN を広範囲に評価し,既存の最先端手法よりも大きなマージン,すなわち,異なる設定で 10.3% から 27.4% の精度向上を実現した。 Traditional Multilingual Text Recognition (MLTR) usually targets a fixed set of languages and thus struggles to handle newly added languages or adapt to ever-changing class distributions. In this paper, we introduce the Incremental Multilingual Text Recognition (IMLTR) task in the incremental learning setting, where new language data comes in batches. Compared to generic incremental learning, IMLTR is even more challenging as it suffers from rehearsal-imbalance (uneven distribution of sample characters in the rehearsal set). To address this issue, we propose a Multiplexed Routing Network (MRN), where a series of recognizers is trained for each language. Subsequently, a language predictor is adopted to weigh the recognizers for voting. Since the recognizers are derived from the original model, MRN effectively reduces the reliance on older data and is better suited for rehearsal-imbalance. We extensively evaluate MRN on MLT17 and MLT19 datasets, outperforming existing state-of-the-art methods by a large margin, i.e., accuracy improvement ranging from 10.3% to 27.4% under different settings. | 翻訳日:2023-07-18 22:21:10 公開日:2023-07-15 |
# トランスデューサに基づくストリーミング音声認識のための適応的文脈バイアス Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition ( http://arxiv.org/abs/2306.00804v2 ) ライセンス: Link先を確認 | Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie | (参考訳) 文脈情報の追加により、パーソナライズされた単語の音声認識のための有望なソリューションとしてディープバイアス手法が登場している。
しかし、現実の音声アシスタントでは、予測スコアの高いパーソナライズされた単語に常に偏りがあるため、一般的な単語を認識する能力は著しく低下する。
そこで本研究では,コンテキスト認識変換器(CATT)に基づく適応的文脈バイアス手法を提案する。
このような予測はバイアスリストのオン/オフを動的に切り替えるために使用され、モデルがパーソナライズされたシナリオと一般的なシナリオの両方に対応できるようにします。
Librispeechと内部音声アシスタントデータセットの実験により、我々のアプローチは、それぞれベースラインと比較してWERとCERの最大6.7%と20.7%の相対的な減少を達成でき、一般的なケースでは96.7%と84.9%の相対的なWERとCERの増加を軽減できることが示された。
さらに,rtf増加を伴うストリーミング推論パイプラインを維持しつつ,パーソナライズされたシナリオにおけるパフォーマンスへの影響を最小限に抑えている。 By incorporating additional contextual information, deep biasing methods have emerged as a promising solution for speech recognition of personalized words. However, for real-world voice assistants, always biasing on such personalized words with high prediction scores can significantly degrade the performance of recognizing common words. To address this issue, we propose an adaptive contextual biasing method based on Context-Aware Transformer Transducer (CATT) that utilizes the biased encoder and predictor embeddings to perform streaming prediction of contextual phrase occurrences. Such prediction is then used to dynamically switch the bias list on and off, enabling the model to adapt to both personalized and common scenarios. Experiments on Librispeech and internal voice assistant datasets show that our approach can achieve up to 6.7% and 20.7% relative reduction in WER and CER compared to the baseline respectively, mitigating up to 96.7% and 84.9% of the relative WER and CER increase for common cases. Furthermore, our approach has a minimal performance impact in personalized scenarios while maintaining a streaming inference pipeline with negligible RTF increase. | 翻訳日:2023-07-18 22:12:44 公開日:2023-07-15 |
# aggVAEを用いた深層学習とMCMCによる行政境界の変化--ケニアにおけるマラリア流行のマッピング Deep learning and MCMC with aggVAE for shifting administrative boundaries: mapping malaria prevalence in Kenya ( http://arxiv.org/abs/2305.19779v3 ) ライセンス: Link先を確認 | Elizaveta Semenova, Swapnil Mishra, Samir Bhatt, Seth Flaxman, H Juliette T Unwin | (参考訳) モデルに基づく疾病マッピングは、公衆衛生と疾病監視の分野でも基本的なポリシーインフォーメーションツールである。
階層ベイズモデルは、データの構造をキャプチャし、不確かさを堅牢に特徴付けることができるため、疾患マッピングの最先端のアプローチとして登場してきた。
地域や州などの行政単位レベルでアラルデータを扱う場合、現在のモデルは空間的相関を考慮し縮小を行うためにアラル単位の隣接構造に依存している。
疾病監視システムの目標は、経時的に病気の結果を追跡することである。
この課題は、しばしば行政境界の再検討につながる危機的状況において特に困難であり、危機前後に収集されたデータは、もはや直接的に比較されない。
さらに、隣接性に基づくアプローチは、空間プロセスの連続的な性質を無視し、サポートの変化問題を解決することができない。
本稿では, 深層生成モデルと完全ベイズ推定を組み合わせた手法を用いて, これらの問題を解決するための新しい, 実用的で, 実装が容易な解法を提案する。
2010年に行政境界が変わったケニアのマラリア流行を地図化します。 Model-based disease mapping remains a fundamental policy-informing tool in the fields of public health and disease surveillance. Hierarchical Bayesian models have emerged as the state-of-the-art approach for disease mapping since they are able to both capture structure in the data and robustly characterise uncertainty. When working with areal data, e.g.~aggregates at the administrative unit level such as district or province, current models rely on the adjacency structure of areal units to account for spatial correlations and perform shrinkage. The goal of disease surveillance systems is to track disease outcomes over time. This task is especially challenging in crisis situations which often lead to redrawn administrative boundaries, meaning that data collected before and after the crisis are no longer directly comparable. Moreover, the adjacency-based approach ignores the continuous nature of spatial processes and cannot solve the change-of-support problem, i.e.~when estimates are required to be produced at different administrative levels or levels of aggregation. We present a novel, practical, and easy to implement solution to solve these problems relying on a methodology combining deep generative modelling and fully Bayesian inference: we build on the recently proposed PriorVAE method able to encode spatial priors over small areas with variational autoencoders by encoding aggregates over administrative units. We map malaria prevalence in Kenya, a country in which administrative boundaries changed in 2010. | 翻訳日:2023-07-18 22:12:21 公開日:2023-07-15 |
# 拡散反転チェーンの整列化による実世界画像の変動 Real-World Image Variation by Aligning Diffusion Inversion Chain ( http://arxiv.org/abs/2305.18729v2 ) ライセンス: Link先を確認 | Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia | (参考訳) 近年の拡散モデルの発展により,テキストプロンプトによる高忠実度画像の生成が可能になった。
しかし、生成された画像と実世界の画像の間にドメインギャップが存在し、実世界の画像の高品質なバリエーションを生成することが困難となる。
この領域のギャップは、異なる拡散過程における潜伏者の分布ギャップに由来することが判明した。
そこで本研究では,拡散モデルを用いて1つの画像から画像変動を生成する,実世界画像変動アライメント(rival)と呼ばれる新しい推定パイプラインを提案する。
当社のパイプラインでは,画像生成プロセスをソース画像の反転チェーンに合わせることにより,画像変動の生成品質を向上させる。
具体的には, ステップワイズ潜在分布アライメントが高品質な変動生成に不可欠であることを実証する。
これを実現するために、機能相互作用のためのクロスイメージ自己注意注入と、遅延特徴を整合させるためにステップワイズ分布正規化を設計する。
これらのアライメントプロセスを拡散モデルに組み込むことで、ライバルはさらなるパラメータ最適化なしに高品質な画像変動を生成することができる。
実験の結果,提案手法は,意味的条件の類似性と知覚的品質において既存の手法よりも優れていることがわかった。
さらに、この一般化推論パイプラインは、画像条件付きテキスト・ツー・イメージ生成や例ベースの画像インパインティングなど、他の拡散ベースの生成タスクにも容易に適用できる。 Recent diffusion model advancements have enabled high-fidelity images to be generated using text prompts. However, a domain gap exists between generated images and real-world images, which poses a challenge in generating high-quality variations of real-world images. Our investigation uncovers that this domain gap originates from a latents' distribution gap in different diffusion processes. To address this issue, we propose a novel inference pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes diffusion models to generate image variations from a single image exemplar. Our pipeline enhances the generation quality of image variations by aligning the image generation process to the source image's inversion chain. Specifically, we demonstrate that step-wise latent distribution alignment is essential for generating high-quality variations. To attain this, we design a cross-image self-attention injection for feature interaction and a step-wise distribution normalization to align the latent features. Incorporating these alignment processes into a diffusion model allows RIVAL to generate high-quality image variations without further parameter optimization. Our experimental results demonstrate that our proposed approach outperforms existing methods with respect to semantic-condition similarity and perceptual quality. Furthermore, this generalized inference pipeline can be easily applied to other diffusion-based generation tasks, such as image-conditioned text-to-image generation and example-based image inpainting. | 翻訳日:2023-07-18 22:11:59 公開日:2023-07-15 |
# HGT:CT画像とテキストを用いた多指間関節感染症診断のための階層型GCNトランス HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic Joint Infection Diagnosis Using CT Images and Text ( http://arxiv.org/abs/2305.18022v2 ) ライセンス: Link先を確認 | Ruiyang Li, Fujun Yang, Xianjie Liu and Hongwei Shi | (参考訳) 補綴関節感染症 (pji) は, 高い診断難易度を特徴とする重篤な合併症である。
現在,ct画像のノイズが大きいことと,ct画像とテキストデータとの間のデータ量差があるため,ct画像とpjiの数値テキストデータを組み合わせた統一診断基準が確立されていない。
本研究では,ディープラーニングとマルチモーダル技術に基づく診断手法であるHGTを紹介する。
片方向選択注意(USA)機構とグラフ畳み込みネットワーク(GCN)ベースの機能融合ネットワークを介して、CTスキャン画像と患者の数値テキストデータとを効果的に融合する。
提案手法をカスタマイズしたマルチモーダルPJIデータセット上で評価し,アブレーション実験と解釈可能性評価により評価した。
提案手法は,91.4\%の精度(ACC)と95.9\%の曲線下面積(AUC)を達成し,最近のマルチモーダルアプローチをACC2.9\%,AUC2.2\%で上回り,パラメータ数は68Mに留まった。
特に, 解釈可能性の結果は, 病変部位におけるモデルの強い焦点と局所化能力を強調した。
提案手法は臨床医に,臨床実践の正確性と効率を高めるための追加診断ツールを提供する。 Prosthetic Joint Infection (PJI) is a prevalent and severe complication characterized by high diagnostic challenges. Currently, a unified diagnostic standard incorporating both computed tomography (CT) images and numerical text data for PJI remains unestablished, owing to the substantial noise in CT images and the disparity in data volume between CT images and text data. This study introduces a diagnostic method, HGT, based on deep learning and multimodal techniques. It effectively merges features from CT scan images and patients' numerical text data via a Unidirectional Selective Attention (USA) mechanism and a graph convolutional network (GCN)-based feature fusion network. We evaluated the proposed method on a custom-built multimodal PJI dataset, assessing its performance through ablation experiments and interpretability evaluations. Our method achieved an accuracy (ACC) of 91.4\% and an area under the curve (AUC) of 95.9\%, outperforming recent multimodal approaches by 2.9\% in ACC and 2.2\% in AUC, with a parameter count of only 68M. Notably, the interpretability results highlighted our model's strong focus and localization capabilities at lesion sites. This proposed method could provide clinicians with additional diagnostic tools to enhance accuracy and efficiency in clinical practice. | 翻訳日:2023-07-18 22:10:22 公開日:2023-07-15 |
# Cryo-EM画像からの半フレキシブル鎖の分子集合の異種再構築 CryoChains: Heterogeneous Reconstruction of Molecular Assembly of Semi-flexible Chains from Cryo-EM Images ( http://arxiv.org/abs/2306.07274v2 ) ライセンス: Link先を確認 | Bongjin Koo, Julien Martel, Ariana Peck, Axel Levy, Fr\'ed\'eric Poitevin, Nina Miolane | (参考訳) 低温電子顕微鏡(cryo-EM)は、3次元の生体分子構造を原子に近い分解能まで再構成することで構造生物学を変容させた。
しかし、3D画像取得は低信号-雑音比に悩まされており、処理に要する非常に大きなデータセットを取得する必要がある。
現在の再構成法は精度は高いが、計算コストは高く、より速いが、大きな分子形状の物理的モデルが欠如している。
このギャップを埋めるために,鎖の剛体変換によって生体分子の大きな変形を符号化するCryoChainを提案する。
ヒトGABA\textsubscript{B} と熱ショックタンパク質の合成データ実験により、CryoChains は生体分子の不均一な構造を生化学的に定量化するとともに、3次元分子構造を現在の高速で解釈可能な深層学習法と比較して改良した解像度で再構築した。 Cryogenic electron microscopy (cryo-EM) has transformed structural biology by allowing to reconstruct 3D biomolecular structures up to near-atomic resolution. However, the 3D reconstruction process remains challenging, as the 3D structures may exhibit substantial shape variations, while the 2D image acquisition suffers from a low signal-to-noise ratio, requiring to acquire very large datasets that are time-consuming to process. Current reconstruction methods are precise but computationally expensive, or faster but lack a physically-plausible model of large molecular shape variations. To fill this gap, we propose CryoChains that encodes large deformations of biomolecules via rigid body transformation of their chains, while representing their finer shape variations with the normal mode analysis framework of biophysics. Our synthetic data experiments on the human GABA\textsubscript{B} and heat shock protein show that CryoChains gives a biophysically-grounded quantification of the heterogeneous conformations of biomolecules, while reconstructing their 3D molecular structures at an improved resolution compared to the current fastest, interpretable deep learning method. | 翻訳日:2023-07-18 22:02:48 公開日:2023-07-15 |
# 強凸関数に対する適応勾配法のパラメータフリーバージョン Parameter-free version of Adaptive Gradient Methods for Strongly-Convex Functions ( http://arxiv.org/abs/2306.06613v2 ) ライセンス: Link先を確認 | Deepak Gouda, Hassan Naveed, Salil Kamath | (参考訳) 適応勾配法を強凸関数に適用する最適学習率はパラメータ {\lambda} と学習率 {\eta} に依存する。
本稿では,メタグレードの行に沿って普遍的なアルゴリズムを適用し,この依存性を解消する。
主なアイデアは、複数の専門家を同時に実行し、予測をマスタアルゴリズムと組み合わせることである。
このマスターは O(d log T) の後悔境界を楽しむ。 The optimal learning rate for adaptive gradient methods applied to {\lambda}-strongly convex functions relies on the parameters {\lambda} and learning rate {\eta}. In this paper, we adapt a universal algorithm along the lines of Metagrad, to get rid of this dependence on {\lambda} and {\eta}. The main idea is to concurrently run multiple experts and combine their predictions to a master algorithm. This master enjoys O(d log T) regret bounds. | 翻訳日:2023-07-18 22:02:27 公開日:2023-07-15 |
# PotatoPestNet:ポテト害虫の正確な同定のためのCTインセプションV3-RSベースニューラルネットワーク PotatoPestNet: A CTInceptionV3-RS-Based Neural Network for Accurate Identification of Potato Pests ( http://arxiv.org/abs/2306.06206v2 ) ライセンス: Link先を確認 | Md. Simul Hasan Talukder, Rejwan Bin Sulaiman, Mohammad Raziuddin Chowdhury, Musarrat Saberin Nipun, Taminul Islam | (参考訳) ポテトは世界第3位の食料作物であるが、攻撃的な害虫の寄生により生産が困難になることが多い。
本研究の目的は,これらの害虫の種類や特徴を調査し,効率的なPotatoPestNetAIを用いた自動ジャガイモ識別システムを提案することである。
そこで我々は,8種類のジャガイモ害虫からなる信頼性データセットをキュレートした。
CMobileNetV2, CNASLargeNet, CXception, CDenseNet201, CInceptionV3の5つのカスタマイズされた移行学習モデルを用いて, ジャガイモ害虫を正確に分類するロバストなPotatoPestNetモデルを提案する。
モデルの性能向上のために,様々な拡張手法を適用し,グローバル平均プール層を導入し,適切な正規化手法を実装した。
モデルの性能をさらに高めるために,ハイパーパラメータチューニングのためのランダムサーチ(rs)最適化を用いた。
この最適化手法は、モデルの微調整と性能向上に重要な役割を果たした。
異なる評価指標を用いて, 視覚的および定量的にモデルを評価した。
不均衡なデータセットを扱う際のモデルの堅牢性は、受信者動作特性(ROC)曲線を用いて評価された。
モデルのうち、ランダムサーチによって最適化されたCustomized Tuned Inception V3 (CTInceptionV3) モデルは優れた性能を示した。
高い精度(91%)、精度(91%)、リコール(91%)、F1スコア(91%)を達成し、ジャガイモ害虫を正確に識別し分類する優れた能力を示した。 Potatoes are the third-largest food crop globally, but their production frequently encounters difficulties because of aggressive pest infestations. The aim of this study is to investigate the various types and characteristics of these pests and propose an efficient PotatoPestNet AI-based automatic potato pest identification system. To accomplish this, we curated a reliable dataset consisting of eight types of potato pests. We leveraged the power of transfer learning by employing five customized, pre-trained transfer learning models: CMobileNetV2, CNASLargeNet, CXception, CDenseNet201, and CInceptionV3, in proposing a robust PotatoPestNet model to accurately classify potato pests. To improve the models' performance, we applied various augmentation techniques, incorporated a global average pooling layer, and implemented proper regularization methods. To further enhance the performance of the models, we utilized random search (RS) optimization for hyperparameter tuning. This optimization technique played a significant role in fine-tuning the models and achieving improved performance. We evaluated the models both visually and quantitatively, utilizing different evaluation metrics. The robustness of the models in handling imbalanced datasets was assessed using the Receiver Operating Characteristic (ROC) curve. Among the models, the Customized Tuned Inception V3 (CTInceptionV3) model, optimized through random search, demonstrated outstanding performance. It achieved the highest accuracy (91%), precision (91%), recall (91%), and F1-score (91%), showcasing its superior ability to accurately identify and classify potato pests. | 翻訳日:2023-07-18 22:01:54 公開日:2023-07-15 |
# 適応型ラグランジアン法による物理と等式制約付き人工ニューラルネットワークの訓練 An adaptive augmented Lagrangian method for training physics and equality constrained artificial neural networks ( http://arxiv.org/abs/2306.04904v2 ) ライセンス: Link先を確認 | Shamsulhaq Basir, Inanc Senocak | (参考訳) 物理と等式制約付き人工ニューラルネットワーク(PECANN)は、偏微分方程式(PDE)の解を、その境界条件と初期条件と、利用可能な高忠実度データとを適切に制約する制約付き最適化法に基づいている。
この目的のために、pecannフレームワークにおける拡張ラグランジアン法の採用は、ニューラルネットワークのパラメータを決定する目的関数において、個々の損失項を手動でバランスさせることなく、pdesの解法を学ぶ上で最重要となる。
一般に、ALMはペナルティとラグランジュ乗算法の利点を組み合わせ、これらの手法と単独で関連する条件や収束の問題を回避する。
本研究では,PECANNフレームワークを用いて,拡張された多様な制約の集合を持つ前方および逆問題の解決を行う。
そこで本研究では,almのペナルティパラメータとラグランジュ乗算器の更新に関する従来の定式化が困難であることを示す。
この問題に対処するために,適応的下位段階法に着想を得た規則に従って適応的に進化する一意のペナルティパラメータを各制約に割り当てる適応ALMを提案する。
さらに,ミニバッチトレーニングを可能にする計算効率と省エネ性を向上させるため,pecannの定式化を改訂した。
本研究では,Navier-Stokes方程式の原始変数定式化による非圧縮性流体のシミュレーションを含む,雑音データを用いた前方およびPDE制約の逆問題の解法により,提案手法の有効性を実証する。 Physics and equality constrained artificial neural networks (PECANN) are grounded in methods of constrained optimization to properly constrain the solution of partial differential equations (PDEs) with their boundary and initial conditions and any high-fidelity data that may be available. To this end, adoption of the augmented Lagrangian method within the PECANN framework is paramount for learning the solution of PDEs without manually balancing the individual loss terms in the objective function used for determining the parameters of the neural network. Generally speaking, ALM combines the merits of the penalty and Lagrange multiplier methods while avoiding the ill conditioning and convergence issues associated singly with these methods . In the present work, we apply our PECANN framework to solve forward and inverse problems that have an expanded and diverse set of constraints. We show that ALM with its conventional formulation to update its penalty parameter and Lagrange multipliers stalls for such challenging problems. To address this issue, we propose an adaptive ALM in which each constraint is assigned a unique penalty parameter that evolve adaptively according to a rule inspired by the adaptive subgradient method. Additionally, we revise our PECANN formulation for improved computational efficiency and savings which allows for mini-batch training. We demonstrate the efficacy of our proposed approach by solving several forward and PDE-constrained inverse problems with noisy data, including simulation of incompressible fluid flows with a primitive-variables formulation of the Navier-Stokes equations up to a Reynolds number of 1000. | 翻訳日:2023-07-18 22:00:57 公開日:2023-07-15 |
# 交通理解のための状況推論に関する研究 A Study of Situational Reasoning for Traffic Understanding ( http://arxiv.org/abs/2306.02520v2 ) ライセンス: Link先を確認 | Jiarui Zhang, Filip Ilievski, Kaixin Ma, Aravinda Kollaa, Jonathan Francis, Alessandro Oltramari | (参考訳) itmo(intelligent traffic monitoring)技術は、道路の安全とセキュリティを改善し、スマートシティインフラストラクチャを実現する可能性を秘めている。
交通状況を理解するには、知覚情報とドメイン固有および因果共通認識知識の複雑な融合が必要である。
以前の作業はトラフィック監視のためのベンチマークとメソッドを提供してきたが、モデルがこれらの情報ソースと新しいシナリオにおける理由を効果的に調整できるかどうかは不明だ。
この評価のギャップに対処するために、交通ドメインにおける状況推論のための3つの新しいテキストベースのタスクを考案する。
一 状況的意思決定を行うための言語モデル(lms)の能力を評価するbdd-qa
二 複雑な事象因果関係を推論するLMの能力を評価するテレビQA及び
三 人間の運転試験を解決するためのモデルの能力を評価するHDT-QA
我々は,自然言語推論,コモンセンス知識グラフ自己スーパービジョン,マルチqa合同トレーニング,ドメイン情報の高密度検索に基づく,事前作業における言語推論タスク間の一般化能力を示す4つの知識強化手法を採用する。
各メソッドを,知識グラフや関連するベンチマーク,マニュアルの操作など,関連する知識ソースと関連付ける。
我々は,データ分割におけるモデル性能の詳細な分析を行い,モデル予測をカテゴリー別に検討し,異なる背景知識と推論戦略を与えられたトラヒック理解に有用な洞察を与える。 Intelligent Traffic Monitoring (ITMo) technologies hold the potential for improving road safety/security and for enabling smart city infrastructure. Understanding traffic situations requires a complex fusion of perceptual information with domain-specific and causal commonsense knowledge. Whereas prior work has provided benchmarks and methods for traffic monitoring, it remains unclear whether models can effectively align these information sources and reason in novel scenarios. To address this assessment gap, we devise three novel text-based tasks for situational reasoning in the traffic domain: i) BDD-QA, which evaluates the ability of Language Models (LMs) to perform situational decision-making, ii) TV-QA, which assesses LMs' abilities to reason about complex event causality, and iii) HDT-QA, which evaluates the ability of models to solve human driving exams. We adopt four knowledge-enhanced methods that have shown generalization capability across language reasoning tasks in prior work, based on natural language inference, commonsense knowledge-graph self-supervision, multi-QA joint training, and dense retrieval of domain information. We associate each method with a relevant knowledge source, including knowledge graphs, relevant benchmarks, and driving manuals. In extensive experiments, we benchmark various knowledge-aware methods against the three datasets, under zero-shot evaluation; we provide in-depth analyses of model performance on data partitions and examine model predictions categorically, to yield useful insights on traffic understanding, given different background knowledge and reasoning strategies. | 翻訳日:2023-07-18 21:59:59 公開日:2023-07-15 |
# DWT-CompCNN:高スループットJPEG 2000圧縮文書のためのディープイメージ分類ネットワーク DWT-CompCNN: Deep Image Classification Network for High Throughput JPEG 2000 Compressed Documents ( http://arxiv.org/abs/2306.01359v2 ) ライセンス: Link先を確認 | Tejasvee Bisen, Mohammed Javed, Shashank Kirtania, P. Nagabhushan | (参考訳) 検索などの文書画像を持つデジタルアプリケーションの場合、文書画像の分類は必須の段階となる。
典型的には、圧縮されていない文書画像である文書のフルバージョンが入力データセットを作成し、ドキュメントのフルバージョンに対応するのに必要な膨大なボリュームが脅威となる。
したがって、プロセス全体を計算効率良くするために、文書の圧縮表現で、同じ分類タスクを(部分的な除圧縮で)直接(一部で)達成できることは、新しいことである。
本研究では,ハイスループットJPEG 2000(HTJ2K)アルゴリズムを用いて圧縮された文書の分類のために,新しいディープラーニングモデルDWT CompCNNを提案する。
提案したDWT-CompCNNは,フィルタサイズ16,32,64,128,256の5つの畳み込み層から構成され,圧縮画像から抽出したウェーブレット係数からの学習を改善する。
Tobacco-3482 と RVL-CDIP の2つのベンチマークデータセットで実験を行い、提案モデルが時間と空間効率であり、圧縮領域の分類精度も向上することを示した。 For any digital application with document images such as retrieval, the classification of document images becomes an essential stage. Conventionally for the purpose, the full versions of the documents, that is the uncompressed document images make the input dataset, which poses a threat due to the big volume required to accommodate the full versions of the documents. Therefore, it would be novel, if the same classification task could be accomplished directly (with some partial decompression) with the compressed representation of documents in order to make the whole process computationally more efficient. In this research work, a novel deep learning model, DWT CompCNN is proposed for classification of documents that are compressed using High Throughput JPEG 2000 (HTJ2K) algorithm. The proposed DWT-CompCNN comprises of five convolutional layers with filter sizes of 16, 32, 64, 128, and 256 consecutively for each increasing layer to improve learning from the wavelet coefficients extracted from the compressed images. Experiments are performed on two benchmark datasets- Tobacco-3482 and RVL-CDIP, which demonstrate that the proposed model is time and space efficient, and also achieves a better classification accuracy in compressed domain. | 翻訳日:2023-07-18 21:59:36 公開日:2023-07-15 |
# 善良な説明者は秘密裏に人間であるのか? Are Good Explainers Secretly Human-in-the-Loop Active Learners? ( http://arxiv.org/abs/2306.13935v2 ) ライセンス: Link先を確認 | Emma Nguyen, Abhishek Ghose | (参考訳) 説明可能なAI(XAI)技術は、ここ数年で複数のユースケースで人気を集めている。
ここでは、モデル予測の研究において、追加のトレーニングデータ収集に使用することを検討する。
これは、クエリ戦略がヒューマン・イン・ザ・ループを含むActive Learningに相当する、と我々は主張する。
我々は,人間の役割を数学的に近似し,エンド・ツー・エンドのワークフローを一般化する。
これにより、ワークフローの拡張を可能にしながら、この使用を標準的なActive Learningアルゴリズムと厳格に比較することができます。
さらにメリットは、高価なユーザ調査を行う代わりに、シミュレーションを通じてそのユーティリティを評価することができることだ。
初期の有望な結果も提示する。 Explainable AI (XAI) techniques have become popular for multiple use-cases in the past few years. Here we consider its use in studying model predictions to gather additional training data. We argue that this is equivalent to Active Learning, where the query strategy involves a human-in-the-loop. We provide a mathematical approximation for the role of the human, and present a general formalization of the end-to-end workflow. This enables us to rigorously compare this use with standard Active Learning algorithms, while allowing for extensions to the workflow. An added benefit is that their utility can be assessed via simulation instead of conducting expensive user-studies. We also present some initial promising results. | 翻訳日:2023-07-18 21:53:12 公開日:2023-07-15 |
# 全次元における非エルミートバンド理論:一様スペクトルと皮膚効果 Non-Hermitian band theory in all dimensions: uniform spectra and skin effect ( http://arxiv.org/abs/2306.12022v2 ) ライセンス: Link先を確認 | Haiping Hu | (参考訳) 非エルミート皮膚効果は、非エルミート系における系の境界付近の固有状態の凝集を特徴とする象徴的な現象である。
一次元で広く研究されている一方で、皮膚効果を理解し、非ブロッホバンド理論を高次元に拡張することは、主に無限格子幾何や開境界条件によって、恐ろしい課題に直面する。
この研究は点ギャップの観点を採用し、すべての空間次元にわたって皮膚効果を支配できる統一非エルミートバンド理論を提示する。
我々は, 均一スペクトルの概念を導入し, 格子幾何学にかかわらず, そのエネルギースペクトルは一様スペクトルによって普遍的に与えられることを明らかにした。
均一なスペクトルに基づいて, 一般格子切断による皮膚効果の考慮方法を示し, 運動量-ベイジス変換による異なる幾何学形状における皮膚モードの接続を確立する。
本研究は,すべての次元において非エルミート皮膚効果を統一的に理解する上で,ポイントギャップが果たす重要な役割を強調した。 The non-Hermitian skin effect is an iconic phenomenon characterized by the aggregation of eigenstates near the system boundaries in non-Hermitian systems. While extensively studied in one dimension, understanding the skin effect and extending the non-Bloch band theory to higher dimensions encounters a formidable challenge, primarily due to infinite lattice geometries or open boundary conditions. This work adopts a point-gap perspective and presents a unified non-Hermitian band theory that governs skin effects across all spatial dimensions. We introduce the concept of uniform spectra and reveal that regardless of lattice geometry, their energy spectra are universally given by the uniform spectra, even though their manifestations of skin modes may differ. Building on the uniform spectra, we demonstrate how to account for the skin effect with generic lattice cuts and establish the connections of skin modes across different geometric shapes via momentum-basis transformations. Our findings highlight the pivotal roles point gaps play, offering a unified understanding of the non-Hermitian skin effect in all dimensions. | 翻訳日:2023-07-18 21:52:15 公開日:2023-07-15 |
# 二重ノードとエッジフェアネス対応グラフ分割 Dual Node and Edge Fairness-Aware Graph Partition ( http://arxiv.org/abs/2306.10123v2 ) ライセンス: Link先を確認 | Tingwei Liu, Peizhao Li, and Hongfu Liu | (参考訳) ソーシャルネットワークの公平なグラフ分割は、教師なしユーザー分析における公平かつ非差別的な扱いを保証するための重要なステップである。
現在のフェアパーティショニング手法では、ノードバランス(node balance)は、すべての人口集団からの比例バランスのノード数を追求する概念であるが、各クラスタ内の不均衡エッジによって引き起こされるバイアスを無視する。
このギャップに対処するために,クラスタ内の異なる人口集団をつなぐエッジの割合を測定するために,エッジバランスという概念を提案する。
ノードバランスとエッジバランスの関係を分析し,線グラフ変換を用いてグラフ分割のための二重ノードおよびエッジフェアネス認識表現を学習するための共埋め込みフレームワークを提案する。
いくつかのソーシャルネットワークデータセットを通じてフレームワークを検証し、ノードとエッジの両面でバランスの取れたパーティションを、優れたユーティリティとともに観察する。
さらに,グラフニューラルネットワークがノード分類やリンク予測タスクで適切に振る舞うように,擬似ラベルとしてフェアパーティションを使用できることを示す。 Fair graph partition of social networks is a crucial step toward ensuring fair and non-discriminatory treatments in unsupervised user analysis. Current fair partition methods typically consider node balance, a notion pursuing a proportionally balanced number of nodes from all demographic groups, but ignore the bias induced by imbalanced edges in each cluster. To address this gap, we propose a notion edge balance to measure the proportion of edges connecting different demographic groups in clusters. We analyze the relations between node balance and edge balance, then with line graph transformations, we propose a co-embedding framework to learn dual node and edge fairness-aware representations for graph partition. We validate our framework through several social network datasets and observe balanced partition in terms of both nodes and edges along with good utility. Moreover, we demonstrate our fair partition can be used as pseudo labels to facilitate graph neural networks to behave fairly in node classification and link prediction tasks. | 翻訳日:2023-07-18 21:51:45 公開日:2023-07-15 |
# AIGCIQA2023:AI生成画像のための大規模画像品質評価データベース:品質、信頼性、対応性の観点から AIGCIQA2023: A Large-scale Image Quality Assessment Database for AI Generated Images: from the Perspectives of Quality, Authenticity and Correspondence ( http://arxiv.org/abs/2307.00211v2 ) ライセンス: Link先を確認 | Jiarui Wang, Huiyu Duan, Jing Liu, Shi Chen, Xiongkuo Min, Guangtao Zhai | (参考訳) 本稿では,AIGIの視覚的嗜好をよりよく理解するために,AIGC用の大規模IQAデータベースを構築し,AIGCIQA2023と命名した。
100プロンプトを用いて6つの最先端テキスト画像生成モデルに基づいて2000以上の画像を生成する。
これらの画像に基づいて、品質、信頼性、対応性を含む3つの視点から、画像ごとの人間の視覚的嗜好を評価するために、よく組織化された主観的実験を行う。
最後に、この大規模データベースに基づいて、構築したデータベース上でのいくつかの最先端IQAメトリクスのパフォーマンスを評価するためのベンチマーク実験を行う。 In this paper, in order to get a better understanding of the human visual preferences for AIGIs, a large-scale IQA database for AIGC is established, which is named as AIGCIQA2023. We first generate over 2000 images based on 6 state-of-the-art text-to-image generation models using 100 prompts. Based on these images, a well-organized subjective experiment is conducted to assess the human visual preferences for each image from three perspectives including quality, authenticity and correspondence. Finally, based on this large-scale database, we conduct a benchmark experiment to evaluate the performance of several state-of-the-art IQA metrics on our constructed database. | 翻訳日:2023-07-18 21:42:57 公開日:2023-07-15 |
# WASP-12b用ExoTICを用いた24光曲線と更新エフェメシス 24 New Light Curves and Updated Ephemeris using EXOTIC for WASP-12b ( http://arxiv.org/abs/2306.17473v2 ) ライセンス: Link先を確認 | Avinash S. Nediyedath, Martin J. Fowler, K. Davis, P. Das, D. Lalla, Bryan E. Martin, S. Dixon, P. Lewin, Andre O. Kovacs, A. Odasso, M. Primm, A. Norris | (参考訳) 世界中のNASA市民科学者はExOplanet Transit Interpretation Code(EXOTIC)を使用して、天体物理学センターが運営する6インチ望遠鏡によって撮影されたWASP-12の71セットの時系列画像を削減した。
これらのセットのうち24は、NASA Exoplanet WatchのウェブサイトにアップロードされたWASP-12bのクリーントランジット光曲線である。
我々は、NASAのExoplanet Archiveの先行データを用いて、惑星の固有点を計算し、ETD(Exoplanet Transit Database)とExoClockの観測と組み合わせた。
太陽系外惑星ウォッチ、etd、外時計データセットを組み合わせることで、wasp-12bの2454508.97872 +/- 0.00003と1.0914196 +/- 1.7325322e-08の軌道周期が更新され、将来の宇宙望遠鏡観測に利用できる。 NASA citizen scientists from all over the world have used EXOplanet Transit Interpretation Code (EXOTIC) to reduce 71 sets of time-series images of WASP-12 taken by the 6-inch telescope operated by the Centre of Astrophysics | Harvard & Smithsonian MicroObservatory. Of these sets, 24 result in clean Transit light curves of the WASP-12b which are uploaded to the NASA Exoplanet Watch website. We use priors from the NASA Exoplanet Archive to calculate the ephemeris of the planet and combine it with ETD (Exoplanet Transit Database) and ExoClock observations. Combining the Exoplanet Watch, ETD, and Exoclock datasets gives an updated ephemeris for the WASP-12b system of 2454508.97872 +/- 0.00003 with an orbital period of 1.0914196 +/- 1.7325322e-08 days which can be used to inform future space telescope observations. | 翻訳日:2023-07-18 21:42:17 公開日:2023-07-15 |
# 適応量子力学における自由フェルミオン Free fermions under adaptive quantum dynamics ( http://arxiv.org/abs/2306.16595v2 ) ライセンス: Link先を確認 | Vikram Ravindranath, Zhi-Cheng Yang and Xiao Chen | (参考訳) ユニタリゲートと射影計測からなる適応量子力学の下で自由フェルミオン系と補正ユニタリ演算について検討した。
さらに、各サイトに対して古典的なフラグを導入し、ユニタリゲートが適用可能か否かを判断するアクティブまたは非アクティブな状態を可能にする。
この力学において、個々の量子軌道は、連続的監視下で以前に研究された自由フェルミオンのモデルと同様に、臨界値から限界値までのエンタングルメント遷移を示す。
さらに, 正則ユニタリ演算は, 電荷密度-波動秩序を特徴とする状態に制御できることがわかった。
その結果、量子軌道と量子チャネルの両方のレベルで観察できる追加の位相遷移が起こる。
我々は、絡み合い遷移とステアリング遷移が根本的に異なることを確証する。
後者の遷移は、固有のフェルミオンパリティと古典的なラベリングの間の相互作用から生じるパリティ保存(PC)普遍性クラスに属する。
我々は,フリーフェルミオン系の効率的な数値シミュレーションにより,エンタングルメントとステアリング遷移の双方を実証し,後者のPC普遍性クラスを確認する。 We study free fermion systems under adaptive quantum dynamics consisting of unitary gates and projective measurements followed by corrective unitary operations. We further introduce a classical flag for each site, allowing for an active or inactive status which determines whether or not the unitary gates are allowed to apply. In this dynamics, the individual quantum trajectories exhibit a measurement-induced entanglement transition from critical to area-law scaling above a critical measurement rate, similar to previously studied models of free fermions under continuous monitoring. Furthermore, we find that the corrective unitary operations can steer the system into a state characterized by charge-density-wave order. Consequently, an additional phase transition occurs, which can be observed at both the level of the quantum trajectory and the quantum channel. We establish that the entanglement transition and the steering transition are fundamentally distinct. The latter transition belongs to the parity-conserving (PC) universality class, arising from the interplay between the inherent fermionic parity and classical labelling. We demonstrate both the entanglement and the steering transitions via efficient numerical simulations of free fermion systems, which confirm the PC universality class of the latter. | 翻訳日:2023-07-18 21:40:11 公開日:2023-07-15 |
# $\mathbf{c}^2$former:rgb赤外物体検出のための校正および補完トランスフォーマー $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection ( http://arxiv.org/abs/2306.16175v2 ) ライセンス: Link先を確認 | Maoxun Yuan, Xingxing Wei | (参考訳) 可視(rgb)および赤外線(ir)画像上の物体検出は、時間前後のアプリケーションのロバストな検出を容易にする新たなソリューションとして、近年広く注目を集めている。
赤外線画像の助けを借りて、オブジェクト検出器はRGB-IR複合情報を使用することにより、実用上より信頼性が高く、堅牢である。
しかし、既存の手法は相反性ミスカバリレーションや核融合インプレシジョンの問題に苦しんでいる。
本稿では,異なる特徴間のペア関係をモデル化する強力な能力を有するため,これら2つの問題に同時に対処するために,$\mathrm{C}^2$Former という新しいキャリブレーション・補完変換器を提案する。
rgb と ir モダリティの相互接続関係を学習し,そのキャリブレーションと相補的特徴を得るために,$\mathrm{c}^2$former で相互接続(inter-modality cross-attention,ica)モジュールを設計する。
ICAにおけるグローバルアテンションの計算による計算コストを低減するため、特徴写像の次元を小さくするために、適応特徴サンプリング(AFS)モジュールが導入された。
$\mathrm{C}^2$Formerは機能ドメインで機能するため、バックボーンネットワークを介して既存のRGB-IRオブジェクト検出器に組み込むことができる。
したがって,1つの単段と2つの2段階の物体検出器に,我々の$\mathrm{C}^2$Formerを組み込んで,その有効性と汎用性を評価する。
本研究では,DroneVehicle と KAIST RGB-IR データセットの広範な実験により,RGB-IR 補完情報を完全に活用し,ロバストな検出結果が得られることを確認した。
コードはhttps://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detec tion.gitで公開されている。 Object detection on visible (RGB) and infrared (IR) images, as an emerging solution to facilitate robust detection for around-the-clock applications, has received extensive attention in recent years. With the help of IR images, object detectors have been more reliable and robust in practical applications by using RGB-IR combined information. However, existing methods still suffer from modality miscalibration and fusion imprecision problems. Since transformer has the powerful capability to model the pairwise correlations between different features, in this paper, we propose a novel Calibrated and Complementary Transformer called $\mathrm{C}^2$Former to address these two problems simultaneously. In $\mathrm{C}^2$Former, we design an Inter-modality Cross-Attention (ICA) module to obtain the calibrated and complementary features by learning the cross-attention relationship between the RGB and IR modality. To reduce the computational cost caused by computing the global attention in ICA, an Adaptive Feature Sampling (AFS) module is introduced to decrease the dimension of feature maps. Because $\mathrm{C}^2$Former performs in the feature domain, it can be embedded into existed RGB-IR object detectors via the backbone network. Thus, one single-stage and one two-stage object detector both incorporating our $\mathrm{C}^2$Former are constructed to evaluate its effectiveness and versatility. With extensive experiments on the DroneVehicle and KAIST RGB-IR datasets, we verify that our method can fully utilize the RGB-IR complementary information and achieve robust detection results. The code is available at https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detec tion.git. | 翻訳日:2023-07-18 21:39:51 公開日:2023-07-15 |
# deep-learning balanced homodyne detectionを用いたカオスによる増幅量子ノイズの高速光子相関モニタリング High-speed photon correlation monitoring of amplified quantum noise by chaos using deep-learning balanced homodyne detection ( http://arxiv.org/abs/2307.02868v2 ) ライセンス: Link先を確認 | Yanqiang Guo, Zinan Hu, Jianchao Zhang, Chenyu Zhu, Xiaomin Guo | (参考訳) 光子相関の精密な実験的な決定には大量のデータと膨大な測定時間が必要である。
広帯域平衡ホモダイン検出とディープラーニング加速度に基づく増幅量子雑音の2次光子相関を$g^{(2)}(0)$でモニタする手法を提案する。
弱いカオスレーザーの注入により量子ノイズを効果的に増幅し、増幅された量子ノイズの$g^{(2)}(0)$をリアルタイムサンプルレート1.4GHzで測定する。
また,光子相関畳み込みニューラルネットワークを用いて,数次ゆらぎを用いて相関データを加速し,様々なカオス注入強度と有効帯域幅に対して$g^{(2)}(0)$の並列処理を行う。
深層学習法は、$g^{(2)}(0)$実験的な取得を高精度に加速し、平均2乗誤差0.002の光子相関データの6107セットを22秒で推定し、データ取得時間で3桁の大加速度を達成する。
この技術は、セキュア通信および量子イメージングにおけるエントロピー源の高速かつ高精度なコヒーレンス評価に寄与する。 Precision experimental determination of photon correlation requires the massive amounts of data and extensive measurement time. We present a technique to monitor second-order photon correlation $g^{(2)}(0)$ of amplified quantum noise based on wideband balanced homodyne detection and deep-learning acceleration. The quantum noise is effectively amplified by an injection of weak chaotic laser and the $g^{(2)}(0)$ of the amplified quantum noise is measured with a real-time sample rate of 1.4 GHz. We also exploit a photon correlation convolutional neural network accelerating correlation data using a few quadrature fluctuations to perform a parallel processing of the $g^{(2)}(0)$ for various chaos injection intensities and effective bandwidths. The deep-learning method accelerates the $g^{(2)}(0)$ experimental acquisition with a high accuracy, estimating 6107 sets of photon correlation data with a mean square error of 0.002 in 22 seconds and achieving a three orders of magnitude acceleration in data acquisition time. This technique contributes to a high-speed and precision coherence evaluation of entropy source in secure communication and quantum imaging. | 翻訳日:2023-07-18 19:56:31 公開日:2023-07-15 |
# AML治療プロトコルに関する意思決定を支援するための説明可能なモデル An explainable model to support the decision about the therapy protocol for AML ( http://arxiv.org/abs/2307.02631v2 ) ライセンス: Link先を確認 | Jade M. Almeida, Giovanna A. Castro, Jo\~ao A. Machado-Neto, Tiago A. Almeida | (参考訳) 急性骨髄性白血病(AML)は最も攻撃的な血液腫瘍の1つである。
適切な治療に関する専門医の判断を支援するため、AML患者は細胞遺伝学的および分子学的特徴に応じて予後を判断し、しばしば3つの危険カテゴリー(好適、中性、悪)に分けられる。
しかし、現在のリスク分類には、同一のリスクグループの患者間の不均一性や中間リスクカテゴリの明確な定義など、既知の問題がある。
さらに、ほとんどのAML患者は中間リスク分類を受けるため、専門医はしばしば他の検査や分析を要求し、治療が遅れて臨床症状が悪化する。
本稿では、患者の生存予測に基づいて、最も適切な治療プロトコルの決定を支援するためのデータ分析と説明可能な機械学習モデルを提案する。
予測モデルが説明可能であることに加えて、得られた結果は有望であり、専門家の意思決定を安全に支援できることを示す。
最も重要なことは、この研究で得られた知見が、より良い治療と予後マーカーに向けた新しい研究の道を開く可能性を秘めていることだ。 Acute Myeloid Leukemia (AML) is one of the most aggressive types of hematological neoplasm. To support the specialists' decision about the appropriate therapy, patients with AML receive a prognostic of outcomes according to their cytogenetic and molecular characteristics, often divided into three risk categories: favorable, intermediate, and adverse. However, the current risk classification has known problems, such as the heterogeneity between patients of the same risk group and no clear definition of the intermediate risk category. Moreover, as most patients with AML receive an intermediate-risk classification, specialists often demand other tests and analyses, leading to delayed treatment and worsening of the patient's clinical condition. This paper presents the data analysis and an explainable machine-learning model to support the decision about the most appropriate therapy protocol according to the patient's survival prediction. In addition to the prediction model being explainable, the results obtained are promising and indicate that it is possible to use it to support the specialists' decisions safely. Most importantly, the findings offered in this study have the potential to open new avenues of research toward better treatments and prognostic markers. | 翻訳日:2023-07-18 19:56:12 公開日:2023-07-15 |
# グラフニューラルネットワークにおけるホモフィリーを用いた監視注意 Supervised Attention Using Homophily in Graph Neural Networks ( http://arxiv.org/abs/2307.05217v2 ) ライセンス: Link先を確認 | Michail Chatzianastasis, Giannis Nikolentzos, Michalis Vazirgiannis | (参考訳) グラフニューラルネットワークは、グラフ上の学習問題を扱う標準的なアプローチとなっている。
グラフニューラルネットワークのさまざまなバリエーションの中で、グラフアテンションネットワーク(GAT)は様々なタスクに大きく成功している。
GATモデルでは、各ノードはアテンションメカニズムを使用して、隣人に重要なスコアを割り当てる。
しかし、他のグラフニューラルネットワークと同様に、GATは異なるクラスに属するノードからのメッセージを集約するため、異なるクラスに対して十分に分離されていないノード表現を生成し、パフォーマンスを損なう可能性がある。
そこで本研究では,この問題を解決するために,同じクラスラベルを共有するノード間の注意スコアを高めるために,任意のグラフ注意度モデルに組み込むことができる新しい手法を提案する。
提案手法を,標準ベースラインモデルよりも高い性能を示すノード分類データセット上で評価した。 Graph neural networks have become the standard approach for dealing with learning problems on graphs. Among the different variants of graph neural networks, graph attention networks (GATs) have been applied with great success to different tasks. In the GAT model, each node assigns an importance score to its neighbors using an attention mechanism. However, similar to other graph neural networks, GATs aggregate messages from nodes that belong to different classes, and therefore produce node representations that are not well separated with respect to the different classes, which might hurt their performance. In this work, to alleviate this problem, we propose a new technique that can be incorporated into any graph attention model to encourage higher attention scores between nodes that share the same class label. We evaluate the proposed method on several node classification datasets demonstrating increased performance over standard baseline models. | 翻訳日:2023-07-18 19:46:55 公開日:2023-07-15 |
# 生成AIと大規模言語モデルの時代におけるチャットGPT:簡潔な調査 ChatGPT in the Age of Generative AI and Large Language Models: A Concise Survey ( http://arxiv.org/abs/2307.04251v2 ) ライセンス: Link先を確認 | Salman Mohamadi, Ghulam Mujtaba, Ngan Le, Gianfranco Doretto, Donald A. Adjeroh | (参考訳) ChatGPTはOpenAIが開発した大規模言語モデル(LLM)で、大量のデータに対して慎重にトレーニングされている。
自然言語処理(NLP)の分野に革命をもたらし、LLMの機能の境界を押し広げた。
ChatGPTは、生成的人工知能(GAI)を大規模に公開するための重要な役割を担っている。
また、同様の技術を開発し、その応用や影響を調査する研究にも関心が寄せられている。
本稿では、ChatGPTとその進化に関する現在の研究ラインについて、簡潔な調査を行うことを目標とする。
chatgptのglass boxとblack boxのビューの両方を検討し、テクノロジーのコンポーネントと基本的な要素、そしてその応用、影響、そして影響について検討しました。
ガラス箱のアプローチは技術の内部の動作を理解することに集中しており、ブラックボックスのアプローチは複雑なシステムとして受け入れ、入力、出力、効果を調べる。
これは、この技術の包括的な探求の道を開き、さらなる研究と実験のためのロードマップを提供する。
また, LLM と GAI に関する基本文献と ChatGPT との関係についても概説した。
この概要は、llmの新興分野における既存および欠落の研究ラインに光を当て、パブリックユーザと開発者の両方に利益をもたらす。
さらに, 教育, 研究, 医療, ファイナンスなどの分野において, 幅広い応用範囲と重要な関心事について検討した。 ChatGPT is a large language model (LLM) created by OpenAI that has been carefully trained on a large amount of data. It has revolutionized the field of natural language processing (NLP) and has pushed the boundaries of LLM capabilities. ChatGPT has played a pivotal role in enabling widespread public interaction with generative artificial intelligence (GAI) on a large scale. It has also sparked research interest in developing similar technologies and investigating their applications and implications. In this paper, our primary goal is to provide a concise survey on the current lines of research on ChatGPT and its evolution. We considered both the glass box and black box views of ChatGPT, encompassing the components and foundational elements of the technology, as well as its applications, impacts, and implications. The glass box approach focuses on understanding the inner workings of the technology, and the black box approach embraces it as a complex system, and thus examines its inputs, outputs, and effects. This paves the way for a comprehensive exploration of the technology and provides a road map for further research and experimentation. We also lay out essential foundational literature on LLMs and GAI in general and their connection with ChatGPT. This overview sheds light on existing and missing research lines in the emerging field of LLMs, benefiting both public users and developers. Furthermore, the paper delves into the broad spectrum of applications and significant concerns in fields such as education, research, healthcare, finance, etc. | 翻訳日:2023-07-18 19:45:28 公開日:2023-07-15 |
# 効果的な人間-AIコラボレーション開発における人間中心AIの適用:人間-AI共同認知システムの観点から Applying human-centered AI in developing effective human-AI teaming: A perspective of human-AI joint cognitive systems ( http://arxiv.org/abs/2307.03913v3 ) ライセンス: Link先を確認 | Wei Xu, Zaifeng Gao | (参考訳) 研究と応用は、AIシステムを開発するための新しいパラダイムとして、HAT(Human-AI Teaming)を使用している。
HATは、AIが単なるツールではなく、チームメイトとして機能することを認識している。
効果的な人間-AIチームは、各メンバの既知の課題と制限を克服しつつ、人間とAIの両方のユニークな能力を活用でき、人間の能力を増強し、どちらのエンティティよりも共同パフォーマンスを高める必要がある。
National AI Research and Strategic Plan 2023アップデートは、AIシステムの独立したパフォーマンスに重点を置く研究プログラムが、動的、適応的、協力的なチームの中でAIが提供しなければならない機能を考慮するのに失敗し、人間とAIのコラボレーションとコラボレーションに関するさらなる研究を求めることを認識している。
しかし、AIが人間とチームメイトとして機能するかどうかについては議論がある。
第一の懸念は、"チーム"パラダイムを採用することは、人間中心のAI(HCAI)アプローチと矛盾するため、AIシステムのコントロールを失うことである。
本稿では、HATパラダイムと議論をさらに分析する。
具体的には,人間とAIの協調認知システム(HAIJCS)の概念枠組みを詳述し,HCAI傘の下でのHAT表現に適用する。
HAIJCSはHCAIを有効化しながらHAIを採用するのに役立つと考えている。
HAIJCSの意義と今後の課題についても論じる。
洞察:aiは新しい形の人間-機械関係の出現につながった:人間-aiチーム(hat)、人間-aiシステムにおけるパラダイムシフト、新しいデザインパラダイムとして帽子を適用する際に人間中心のai(hcai)アプローチに従うこと、効果的な人間-aiチームを作るための帽子を表現・実装するための人間-ai合同認知システム(haijcs)の概念的枠組みを提案する。 Research and application have used human-AI teaming (HAT) as a new paradigm to develop AI systems. HAT recognizes that AI will function as a teammate instead of simply a tool in collaboration with humans. Effective human-AI teams need to be capable of taking advantage of the unique abilities of both humans and AI while overcoming the known challenges and limitations of each member, augmenting human capabilities, and raising joint performance beyond that of either entity. The National AI Research and Strategic Plan 2023 update has recognized that research programs focusing primarily on the independent performance of AI systems generally fail to consider the functionality that AI must provide within the context of dynamic, adaptive, and collaborative teams and calls for further research on human-AI teaming and collaboration. However, there has been debate about whether AI can work as a teammate with humans. The primary concern is that adopting the "teaming" paradigm contradicts the human-centered AI (HCAI) approach, resulting in humans losing control of AI systems. This article further analyzes the HAT paradigm and the debates. Specifically, we elaborate on our proposed conceptual framework of human-AI joint cognitive systems (HAIJCS) and apply it to represent HAT under the HCAI umbrella. We believe that HAIJCS may help adopt HAI while enabling HCAI. The implications and future work for HAIJCS are also discussed. Insights: AI has led to the emergence of a new form of human-machine relationship: human-AI teaming (HAT), a paradigmatic shift in human-AI systems; We must follow a human-centered AI (HCAI) approach when applying HAT as a new design paradigm; We propose a conceptual framework of human-AI joint cognitive systems (HAIJCS) to represent and implement HAT for developing effective human-AI teaming | 翻訳日:2023-07-18 19:44:28 公開日:2023-07-15 |
# クロスカメラペアサンプルのないドメイン適応型人物再識別 Domain-adaptive Person Re-identification without Cross-camera Paired Samples ( http://arxiv.org/abs/2307.06533v2 ) ライセンス: Link先を確認 | Huafeng Li, Yanmei Mao, Yafei Zhang, Guanqiu Qi, and Zhengtao Yu | (参考訳) 既存の人物識別(re-ID)研究は主に隣接する地域のカメラ間での歩行者識別に焦点をあてている。
しかし、現実には、長距離シーン間の歩行者アイデンティティマッチングの問題に直面することは避けられない。
長距離シーンから収集されたクロスカメラ歩行者のサンプルには、ポジティブなサンプルがないことが多い。
クロスカメラの負のサンプルを用いて、地域間歩行者識別マッチングを実現することは極めて困難である。
そこで, クロスカメラによる一貫した識別特徴学習に着目したドメイン適応型人物再ID手法を提案する。
本手法は主に、カテゴリシナジーコプロモーションモジュール(CSCM)と、クロスカメラ一貫した特徴学習モジュール(CCFLM)を含む。
CSCMでは,タスク固有の機能組換え(FRT)機構が提案されている。
このメカニズムは、まず特定のタスクへの貢献に応じて特徴をグループ化する。
次に、特徴群間の対話型プロモーション学習(IPL)手法を開発し、特徴識別性を高めるためにこの機構に組み込む。
特定のタスクモデルの制御パラメータはタスクごとの分割後に減少するため、モデルの一般化能力が改善される。
CCFLMでは、インスタンスレベルの特徴分布アライメントと、カメラ間のアイデンティティ一貫した学習方法を構築している。
そのため、ソースドメインサンプルとターゲットドメインサンプルのスタイルを交換することにより、対象ドメインのスタイル監視の下で教師付きモデルトレーニングを行い、クロスカメラ類似サンプルを利用することで、クロスカメラペア化サンプルの欠如による課題を解決する。
実験では,3つの挑戦的データセットを対象領域として使用し,提案手法の有効性を4つの実験条件で示す。 Existing person re-identification (re-ID) research mainly focuses on pedestrian identity matching across cameras in adjacent areas. However, in reality, it is inevitable to face the problem of pedestrian identity matching across long-distance scenes. The cross-camera pedestrian samples collected from long-distance scenes often have no positive samples. It is extremely challenging to use cross-camera negative samples to achieve cross-region pedestrian identity matching. Therefore, a novel domain-adaptive person re-ID method that focuses on cross-camera consistent discriminative feature learning under the supervision of unpaired samples is proposed. This method mainly includes category synergy co-promotion module (CSCM) and cross-camera consistent feature learning module (CCFLM). In CSCM, a task-specific feature recombination (FRT) mechanism is proposed. This mechanism first groups features according to their contributions to specific tasks. Then an interactive promotion learning (IPL) scheme between feature groups is developed and embedded in this mechanism to enhance feature discriminability. Since the control parameters of the specific task model are reduced after division by task, the generalization ability of the model is improved. In CCFLM, instance-level feature distribution alignment and cross-camera identity consistent learning methods are constructed. Therefore, the supervised model training is achieved under the style supervision of the target domain by exchanging styles between source-domain samples and target-domain samples, and the challenges caused by the lack of cross-camera paired samples are solved by utilizing cross-camera similar samples. In experiments, three challenging datasets are used as target domains, and the effectiveness of the proposed method is demonstrated through four experimental settings. | 翻訳日:2023-07-18 19:37:41 公開日:2023-07-15 |
# ローカルを超越:グローバルグラフによるパーソナライズされたニュースレコメンデーション Going Beyond Local: Global Graph-Enhanced Personalized News Recommendations ( http://arxiv.org/abs/2307.06576v2 ) ライセンス: Link先を確認 | Boming Yang, Dairui Liu, Toyotaro Suzumura, Ruihai Dong, Irene Li | (参考訳) 候補ニュース記事をユーザに正確に推薦することは、パーソナライズされたニュースレコメンデーションシステムにとって、常に重要な課題だった。
最近の研究は主に、現地の歴史的ニュースから派生したコンテンツに基づく手法を用いて、リッチテキストデータから意味情報を抽出する高度な自然言語処理技術に焦点を当てている。
しかし、このアプローチはグローバルな視点に欠けており、セマンティック情報を超えたユーザの隠されたモチベーションや振る舞いを説明できない。
そこで本研究では,他のユーザから学習したグローバル表現とローカル表現を組み合わせることで,パーソナライズドレコメンデーションシステムを強化する,gloly(グローバルローカルニュースレコメンデーションシステム)という新しいモデルを提案する。
我々は,グローバルニュースグラフを含むグローバルな歴史ニュースエンコーダを構築し,ゲートグラフニューラルネットワークを用いてニュース表現を充実させ,歴史的ニュースアグリゲータによる歴史的ニュース表現を融合させることにより,これを実現する。
同様に、グローバルエンティティグラフと候補ニュースアグリゲータを利用して、このアプローチをグローバル候補ニュースエンコーダにも拡張し、候補ニュース表現を強化します。
2つの公開ニュースデータセットの評価結果は,提案手法が既存手法より優れていることを示す。
さらに,より多様なレコメンデーションを提供する。 Precisely recommending candidate news articles to users has always been a core challenge for personalized news recommendation systems. Most recent works primarily focus on using advanced natural language processing techniques to extract semantic information from rich textual data, employing content-based methods derived from local historical news. However, this approach lacks a global perspective, failing to account for users' hidden motivations and behaviors beyond semantic information. To address this challenge, we propose a novel model called GLORY (Global-LOcal news Recommendation sYstem), which combines global representations learned from other users with local representations to enhance personalized recommendation systems. We accomplish this by constructing a Global-aware Historical News Encoder, which includes a global news graph and employs gated graph neural networks to enrich news representations, thereby fusing historical news representations by a historical news aggregator. Similarly, we extend this approach to a Global Candidate News Encoder, utilizing a global entity graph and a candidate news aggregator to enhance candidate news representation. Evaluation results on two public news datasets demonstrate that our method outperforms existing approaches. Furthermore, our model offers more diverse recommendations. | 翻訳日:2023-07-18 19:24:12 公開日:2023-07-15 |
# 日常生活活動評価のための対話システム:基礎知識との整合性の向上 A Dialogue System for Assessing Activities of Daily Living: Improving Consistency with Grounded Knowledge ( http://arxiv.org/abs/2307.07544v1 ) ライセンス: Link先を確認 | Zhecheng Sheng, Raymond Finzel, Michael Lucke, Sheena Dufresne, Maria Gini, Serguei Pakhomov | (参考訳) 医療において、自分自身の世話をする能力は、機能能力(機能)の尺度として機能する「日常生活活動(adl)」に反映される。
機能不足は生活条件の悪化につながり、パーソナルケアや支援を必要とする。
支援を必要とする者を正確に特定するため,支援プログラムでは,各分野の参加者の活動を継続的に評価する。
しかしながら、さまざまなレベルの専門知識を持つ複数の評価者が関与する場合、評価プロセスは一貫性の問題に直面する可能性がある。
特に初心者評価者は、実世界の参加者との対話に必要な準備を欠いている可能性がある。
この問題に対処するために,評価者と様々な機能を持つ個人との対話を自然かつ再現可能な方法でシミュレートする対話システムを開発した。
対話システムは,自然言語理解用(NLU)と自然言語生成用(NLG)の2つの主要モジュールから構成される。
基礎となる知識ベースと一致した応答を生成するために,対話システムでは,ユーザの問合せの理解とシミュレーション対象者の伝記的詳細の両方が必要である。
この要件を満たすために,最近リリースされたinstructgptライクなモデルを用いて,問合せ分類と,それらの伝記的詳細に基づく応答の生成を実験した。 In healthcare, the ability to care for oneself is reflected in the "Activities of Daily Living (ADL)," which serve as a measure of functional ability (functioning). A lack of functioning may lead to poor living conditions requiring personal care and assistance. To accurately identify those in need of support, assistance programs continuously evaluate participants' functioning across various domains. However, the assessment process may encounter consistency issues when multiple assessors with varying levels of expertise are involved. Novice assessors, in particular, may lack the necessary preparation for real-world interactions with participants. To address this issue, we developed a dialogue system that simulates interactions between assessors and individuals of varying functioning in a natural and reproducible way. The dialogue system consists of two major modules, one for natural language understanding (NLU) and one for natural language generation (NLG), respectively. In order to generate responses consistent with the underlying knowledge base, the dialogue system requires both an understanding of the user's query and of biographical details of an individual being simulated. To fulfill this requirement, we experimented with query classification and generated responses based on those biographical details using some recently released InstructGPT-like models. | 翻訳日:2023-07-18 19:18:05 公開日:2023-07-15 |
# 確率的政策実行不確実性を考慮した効果的な行動ロバスト強化学習 Efficient Action Robust Reinforcement Learning with Probabilistic Policy Execution Uncertainty ( http://arxiv.org/abs/2307.07666v1 ) ライセンス: Link先を確認 | Guanin Liu, Zhihan Zhou, Han Liu, Lifeng Lai | (参考訳) ロバスト強化学習(RL)は、不確実性に直面した最悪のパフォーマンスを最適化する政策を見つけることを目的としている。
本稿では,ポリシーに規定される行為を常に実行する代わりに,エージェントがポリシーに指定されたアクションを確率1〜\rho$で受け取り,確率$\rho$で代替の敵対行為を行う確率的ポリシー実行の不確実性を伴うアクションロバストrlに焦点を当てる。
確率的政策実行の不確実性を持つ行動ロバストmdpに対する最適ポリシーの存在を確立し,その解に対して行動ロバストなベルマン最適性方程式を提供する。
さらに、最小限の後悔とサンプルの複雑さを実現するために、Action Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
さらに,本手法のロバスト性を検証するために数値実験を行い,arrlcが非ロバストrlアルゴリズムよりも優れ,行動摂動の存在下でロバストtdアルゴリズムよりも高速に収束することを示す。 Robust reinforcement learning (RL) aims to find a policy that optimizes the worst-case performance in the face of uncertainties. In this paper, we focus on action robust RL with the probabilistic policy execution uncertainty, in which, instead of always carrying out the action specified by the policy, the agent will take the action specified by the policy with probability $1-\rho$ and an alternative adversarial action with probability $\rho$. We establish the existence of an optimal policy on the action robust MDPs with probabilistic policy execution uncertainty and provide the action robust Bellman optimality equation for its solution. Furthermore, we develop Action Robust Reinforcement Learning with Certificates (ARRLC) algorithm that achieves minimax optimal regret and sample complexity. Furthermore, we conduct numerical experiments to validate our approach's robustness, demonstrating that ARRLC outperforms non-robust RL algorithms and converges faster than the robust TD algorithm in the presence of action perturbations. | 翻訳日:2023-07-18 18:48:53 公開日:2023-07-15 |
# INVE:インタラクティブなニューラルビデオ編集 INVE: Interactive Neural Video Editing ( http://arxiv.org/abs/2307.07663v1 ) ライセンス: Link先を確認 | Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee | (参考訳) 本稿では,リアルタイムビデオ編集ソリューションであるinteractive neural video editing (inve)を提案する。
我々の手法は、最近のLayered Neural Atlas (LNA)の研究にインスパイアされている。
しかしLNAは,(1)対話的な編集に時間がかかりすぎること,(2)直接フレーム編集やテクスチャトラッキングなど,いくつかの編集ユースケースに対するサポートが不十分であること,の2つの大きな欠点に悩まされている。
これらの課題に対処するために,ハッシュグレード符号化を利用した高効率ネットワークアーキテクチャを活用し,処理速度を大幅に向上させる。
さらに、画像アトラス間の双方向機能を学び、ベクトル化編集を導入し、アトラスとフレームの双方でより多彩な編集を可能にする。
LNAと比較して、我々のINVEは学習時間と推論時間を5倍に削減し、LNAができない様々なビデオ編集操作をサポートしています。
本稿では,インタラクティブビデオ編集におけるinveの優位を定量的・質的分析を通じて示し,その長所と性能の向上を強調する。
ビデオ結果については、https://gabriel-huang.github.io/inve/をご覧ください。 We present Interactive Neural Video Editing (INVE), a real-time video editing solution, which can assist the video editing process by consistently propagating sparse frame edits to the entire video clip. Our method is inspired by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from two major drawbacks: (1) the method is too slow for interactive editing, and (2) it offers insufficient support for some editing use cases, including direct frame editing and rigid texture tracking. To address these challenges we leverage and adopt highly efficient network architectures, powered by hash-grids encoding, to substantially improve processing speed. In addition, we learn bi-directional functions between image-atlas and introduce vectorized editing, which collectively enables a much greater variety of edits in both the atlas and the frames directly. Compared to LNA, our INVE reduces the learning and inference time by a factor of 5, and supports various video editing operations that LNA cannot. We showcase the superiority of INVE over LNA in interactive video editing through a comprehensive quantitative and qualitative analysis, highlighting its numerous advantages and improved performance. For video results, please see https://gabriel-huang.github.io/inve/ | 翻訳日:2023-07-18 18:48:32 公開日:2023-07-15 |
# utopiaラベル分布近似による主観的時系列データの学習 Learning Subjective Time-Series Data via Utopia Label Distribution Approximation ( http://arxiv.org/abs/2307.07682v1 ) ライセンス: Link先を確認 | Wenxin Xu, Hexin Jiang, Xuefeng Liang, Ying Zhou, Yin Zhao, Jie Zhang | (参考訳) 近年,主観的時系列回帰(STR)タスクが注目されている。
しかし、既存の手法の多くはstrデータのラベル分布バイアスを見落としており、バイアスモデルとなる。
年齢推定や深度推定などの不均衡回帰タスクに関する新しい研究は、データセットの先行ラベル分布が一様であることを仮定している。
しかし、STRタスクにおけるトレーニングセットとテストセットのラベル分布は、均一でも同一でもない可能性が高い。
この特徴は、公正なモデルをトレーニングするためのより合理的な分布を見積もる新しいアプローチを要求する。
本研究では,時系列データに対する utopia label distribution approximation (ulda) を提案する。
これによりモデルの公平性が向上する。
具体的には、ULDAはまずガウスカーネルによるトレーニングラベルの分布を包含する。
畳み込み後、各回帰ラベルの必要なサンプル量を変更することができる。
さらに,時間スライス正規サンプリング(TNS)を用いて,必要試料量が初期試料量より大きい場合に新しい試料を生成するとともに,必要試料量が初期試料量より少ない場合には,CWL(Convolutional Weighted Loss)を用いて試料重量を減少させる。
これら2つのモジュールは、近似したユートピアラベル分布のモデルトレーニングを支援するだけでなく、時間的文脈空間におけるサンプル連続性を維持する。
我々の知る限り、ULDAは時系列データのラベル分布バイアスに対処する最初の方法である。
大規模な実験により、ULDAは2つのSTRタスクと3つのベンチマークデータセットで最先端のパフォーマンスを引き上げている。 Subjective time-series regression (STR) tasks have gained increasing attention recently. However, most existing methods overlook the label distribution bias in STR data, which results in biased models. Emerging studies on imbalanced regression tasks, such as age estimation and depth estimation, hypothesize that the prior label distribution of the dataset is uniform. However, we observe that the label distributions of training and test sets in STR tasks are likely to be neither uniform nor identical. This distinct feature calls for new approaches that estimate more reasonable distributions to train a fair model. In this work, we propose Utopia Label Distribution Approximation (ULDA) for time-series data, which makes the training label distribution closer to real-world but unknown (utopia) label distribution. This would enhance the model's fairness. Specifically, ULDA first convolves the training label distribution by a Gaussian kernel. After convolution, the required sample quantity at each regression label may change. We further devise the Time-slice Normal Sampling (TNS) to generate new samples when the required sample quantity is greater than the initial sample quantity, and the Convolutional Weighted Loss (CWL) to lower the sample weight when the required sample quantity is less than the initial quantity. These two modules not only assist the model training on the approximated utopia label distribution, but also maintain the sample continuity in temporal context space. To the best of our knowledge, ULDA is the first method to address the label distribution bias in time-series data. Extensive experiments demonstrate that ULDA lifts the state-of-the-art performance on two STR tasks and three benchmark datasets. | 翻訳日:2023-07-18 18:39:05 公開日:2023-07-15 |
# 機械学習に基づく航空製品のためのデータ中心の運用設計ドメイン特性 Data-centric Operational Design Domain Characterization for Machine Learning-based Aeronautical Products ( http://arxiv.org/abs/2307.07681v1 ) ライセンス: Link先を確認 | Fateh Kaakai, Shridhar "Shreeder" Adibhatla, Ganesh Pai, Emmanuelle Escorihuela | (参考訳) 機械学習(ML)に基づく航空製品のためのオペレーショナルデザインドメイン(ODD)の最初の厳密な特徴について述べる。
ODD開発がシナリオベースである他のアプリケーションセクター(自動運転車など)とは異なり、当社のアプローチはデータ中心であり、ODDを定義するパラメータを明示的にキャプチャ可能な次元と、MLベースのアプリケーションが運用中に遭遇する可能性のあるデータの分類を提案し、システムレベルの関連性と影響を特定します。
具体的には、MLモデル(MLM)の設計を駆動するために必要な要件、MLMやシステム階層の高レベルへの影響、必要な学習保証プロセス、システムアーキテクチャの考慮など、これらのデータカテゴリがどのように役立つかを論じる。
基礎となる概念を航空機の飛行封筒の例で説明する。 We give a first rigorous characterization of Operational Design Domains (ODDs) for Machine Learning (ML)-based aeronautical products. Unlike in other application sectors (such as self-driving road vehicles) where ODD development is scenario-based, our approach is data-centric: we propose the dimensions along which the parameters that define an ODD can be explicitly captured, together with a categorization of the data that ML-based applications can encounter in operation, whilst identifying their system-level relevance and impact. Specifically, we discuss how those data categories are useful to determine: the requirements necessary to drive the design of ML Models (MLMs); the potential effects on MLMs and higher levels of the system hierarchy; the learning assurance processes that may be needed, and system architectural considerations. We illustrate the underlying concepts with an example of an aircraft flight envelope. | 翻訳日:2023-07-18 18:38:36 公開日:2023-07-15 |
# シングル陽性マルチラベル認識のためのセマンティックコントラストブートストラップ Semantic Contrastive Bootstrapping for Single-positive Multi-label Recognition ( http://arxiv.org/abs/2307.07680v1 ) ライセンス: Link先を確認 | Cheng Chen, Yifan Zhao, Jia Li | (参考訳) 不完全なアノテーションによるマルチラベル画像認識の学習は、完全なラベル付きデータセットでのトレーニングに比べて優れたパフォーマンスと大幅な労力削減によって人気を集めている。
既存の文献は主にラベルの完成と共起学習に重点を置いており、最も一般的な単一陽性のラベルの手法では困難に直面している。
そこで本研究では,クラスアクティベーションをセマンティックガイダンスとして導入することにより,オブジェクト間の関係を徐々に回復するセマンティック・コントラッシブ・ブートストラップ(Scob)手法を提案する。
この学習指導により,多段分類タスクにおいて,代表的オブジェクトレベル表現を抽出し,コントラスト学習問題に取り込むために,再帰的な意味マスクトランスフォーマを提案する。
さらに、ネットワークパラメータを反復的に最適化し、セマンティックガイダンスの誤りによる障害を軽減するためにセマンティックガイダンスを改良する期待最大化方式のブートストラップフレームワークを提案する。
広範な実験結果から,提案手法は4つの公開マルチラベル画像認識ベンチマークにおいて,最先端モデルを大きく上回っていることが示された。
コードはhttps://github.com/iCVTEAM/Scob.comにある。 Learning multi-label image recognition with incomplete annotation is gaining popularity due to its superior performance and significant labor savings when compared to training with fully labeled datasets. Existing literature mainly focuses on label completion and co-occurrence learning while facing difficulties with the most common single-positive label manner. To tackle this problem, we present a semantic contrastive bootstrapping (Scob) approach to gradually recover the cross-object relationships by introducing class activation as semantic guidance. With this learning guidance, we then propose a recurrent semantic masked transformer to extract iconic object-level representations and delve into the contrastive learning problems on multi-label classification tasks. We further propose a bootstrapping framework in an Expectation-Maximization fashion that iteratively optimizes the network parameters and refines semantic guidance to alleviate possible disturbance caused by wrong semantic guidance. Extensive experimental results demonstrate that the proposed joint learning framework surpasses the state-of-the-art models by a large margin on four public multi-label image recognition benchmarks. Codes can be found at https://github.com/iCVTEAM/Scob. | 翻訳日:2023-07-18 18:38:21 公開日:2023-07-15 |
# マッチングにおけるシャープ収束率 Sharp Convergence Rates for Matching Pursuit ( http://arxiv.org/abs/2307.07679v1 ) ライセンス: Link先を確認 | Jason M. Klusowski, Jonathan W. Siegel | (参考訳) 辞書の要素のスパース線形結合によって対象関数を近似するためのマッチング追従法(pure greedy algorithm)の基本的な限界について検討する。
対象関数が辞書に対応する変動空間に含まれる場合、過去数十年にわたって多くの印象的な著作がマッチング追跡の収束率の上限を上下に求めてきたが、それらは一致しない。
本論文の主な貢献は, このギャップを埋めて, マッチング追従性能を鋭く評価することである。
既存の下界を最高の上界に合わせるように改良することでこれを達成します。
具体的には,既存の上限値が改善できないことを示す最悪の事例辞書を構築する。
他のグリーディアルゴリズムの変種とは異なり、収束率は準最適であり、ある非線型方程式の解によって決定される。
これにより、最悪の場合において、任意の量の縮小が一致追尾を改善すると結論付けることができる。 We study the fundamental limits of matching pursuit, or the pure greedy algorithm, for approximating a target function by a sparse linear combination of elements from a dictionary. When the target function is contained in the variation space corresponding to the dictionary, many impressive works over the past few decades have obtained upper and lower bounds on the convergence rate of matching pursuit, but they do not match. The main contribution of this paper is to close this gap and obtain a sharp characterization of the performance of matching pursuit. We accomplish this by improving the existing lower bounds to match the best upper bound. Specifically, we construct a worst case dictionary which proves that the existing upper bound cannot be improved. It turns out that, unlike other greedy algorithm variants, the converge rate is suboptimal and is determined by the solution to a certain non-linear equation. This enables us to conclude that any amount of shrinkage improves matching pursuit in the worst case. | 翻訳日:2023-07-18 18:38:01 公開日:2023-07-15 |
# 空間的および周波数的手がかりが高忠実度画像インパインティングに寄与する Both Spatial and Frequency Cues Contribute to High-Fidelity Image Inpainting ( http://arxiv.org/abs/2307.07678v1 ) ライセンス: Link先を確認 | Ze Lu, Yalei Lv, Wenqi Wang, Pengfei Xiong | (参考訳) ディープジェネレーティブなアプローチは、近年、イメージインペインティングで大きな成功を収めています。
しかし、ほとんどの生成的インペインティングネットワークは、過剰なスムース結果またはエイリアスアーチファクトに苦しむ。
前者は高周波の詳細を欠いているが、後者は意味構造を欠いている。
この問題に対処するために、空間領域と周波数領域の両方でリッチな意味情報を活用して、周波数空間補間ネットワーク(FSCN)を提案する。
具体的には、空間的ネットワーク上に周波数分岐と周波数損失を余分に導入し、周波数情報を直接監視し、マルチドメインの特徴を融合させ、対応する特徴を組み合わせるために周波数空間横断遮断(FSCAB)を提案する。
当社のFSCABでは、インパインティングネットワークは周波数情報をキャプチャし、同時に視覚的一貫性を保つことができる。
大規模な定量的および定性的な実験により、我々の塗装ネットワークは、パラメータを著しく少なく、計算コストを少なくして、従来の最先端のアプローチよりも優れた結果が得られることを示した。
コードはまもなくリリースされる。 Deep generative approaches have obtained great success in image inpainting recently. However, most generative inpainting networks suffer from either over-smooth results or aliasing artifacts. The former lacks high-frequency details, while the latter lacks semantic structure. To address this issue, we propose an effective Frequency-Spatial Complementary Network (FSCN) by exploiting rich semantic information in both spatial and frequency domains. Specifically, we introduce an extra Frequency Branch and Frequency Loss on the spatial-based network to impose direct supervision on the frequency information, and propose a Frequency-Spatial Cross-Attention Block (FSCAB) to fuse multi-domain features and combine the corresponding characteristics. With our FSCAB, the inpainting network is capable of capturing frequency information and preserving visual consistency simultaneously. Extensive quantitative and qualitative experiments demonstrate that our inpainting network can effectively achieve superior results, outperforming previous state-of-the-art approaches with significantly fewer parameters and less computation cost. The code will be released soon. | 翻訳日:2023-07-18 18:37:46 公開日:2023-07-15 |
# 多クラスオブジェクトカウントのための擬似ラベルセグメンテーションからの学習 Learning from Pseudo-labeled Segmentation for Multi-Class Object Counting ( http://arxiv.org/abs/2307.07677v1 ) ライセンス: Link先を確認 | Jingyi Xu and Hieu Le and Dimitris Samaras | (参考訳) CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。
目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。
本稿では、画像中に複数のオブジェクトクラスが存在する場合(すなわち、複数クラスのオブジェクトカウント)に対象オブジェクトをカウントするタスクが、現在のオブジェクトカウントモデルでは特に難しいことを指摘する。
彼らはしばしば、例示によらずあらゆる対象をゆるやかに数える。
そこで本研究では,興味のある対象を含む領域を,実例に基づくセグメンテーションモデルにより局所化する手法を提案する。
ここでの重要な課題は、このモデルをトレーニングするためのセグメント管理の欠如です。
そこで本研究では,ボックス例とドットアノテーションのみを用いて擬似セグメンテーションマスクを得る手法を提案する。
これらの擬似ラベルマスクで訓練されたセグメンテーションモデルにより,任意のマルチクラス画像に対する興味のあるオブジェクトのローカライズが可能となる。
マルチクラスカウントにおける異なる手法の性能を評価するために,合成マルチクラスデータセットと複数クラスのオブジェクトが存在する実画像の新しいテストセットという,2つの新しいベンチマークを導入する。
提案手法は, 従来のCAC法よりも有意な優位性を示した。 Class-agnostic counting (CAC) has numerous potential applications across various domains. The goal is to count objects of an arbitrary category during testing, based on only a few annotated exemplars. In this paper, we point out that the task of counting objects of interest when there are multiple object classes in the image (namely, multi-class object counting) is particularly challenging for current object counting models. They often greedily count every object regardless of the exemplars. To address this issue, we propose localizing the area containing the objects of interest via an exemplar-based segmentation model before counting them. The key challenge here is the lack of segmentation supervision to train this model. To this end, we propose a method to obtain pseudo segmentation masks using only box exemplars and dot annotations. We show that the segmentation model trained on these pseudo-labeled masks can effectively localize objects of interest for an arbitrary multi-class image based on the exemplars. To evaluate the performance of different methods on multi-class counting, we introduce two new benchmarks, a synthetic multi-class dataset and a new test set of real images in which objects from multiple classes are present. Our proposed method shows a significant advantage over the previous CAC methods on these two benchmarks. | 翻訳日:2023-07-18 18:37:27 公開日:2023-07-15 |
# マルチエージェントバンド機構におけるエポックグリードのロバスト性について On the Robustness of Epoch-Greedy in Multi-Agent Contextual Bandit Mechanisms ( http://arxiv.org/abs/2307.07675v1 ) ライセンス: Link先を確認 | Yinglun Xu, Bhuvesh Kumar, Jacob Abernethy | (参考訳) ペイ・パー・クリック(PPC)オークションのようなマルチアームバンディット・メカニズムの効率的な学習には3つの課題がある。
1)真理的な入札行動(インセンティブ)を誘発する
2)ユーザ(コンテキスト)におけるパーソナライズの使用,及び
3)クリックパターン(破損)の操作を回避する。
これらの課題はいずれも文学において直交的に研究されており、インセンティブは真理的な複数腕のバンディット機構に関する一連の研究によって対処され、コンテキストは文脈的バンディットアルゴリズムによって広範囲に取り組まれている。
これらの課題は共存しているため、他の課題に対処する上でそれぞれのアプローチの堅牢性を理解し、同時に処理可能なアルゴリズムを提供し、この組み合わせに固有の制限を強調することが重要である。
本研究では,最も顕著な文脈的バンディットアルゴリズムである$\epsilon$-greedyが,文脈的マルチアームバンディット機構の設定において戦略的アームがもたらした課題に対処するために拡張可能であることを示す。
さらに,$\epsilon$-greedy は対向的データ汚職攻撃に対して本質的に頑健であり,汚職の量で線形に劣化する性能を達成することを示した。 Efficient learning in multi-armed bandit mechanisms such as pay-per-click (PPC) auctions typically involves three challenges: 1) inducing truthful bidding behavior (incentives), 2) using personalization in the users (context), and 3) circumventing manipulations in click patterns (corruptions). Each of these challenges has been studied orthogonally in the literature; incentives have been addressed by a line of work on truthful multi-armed bandit mechanisms, context has been extensively tackled by contextual bandit algorithms, while corruptions have been discussed via a recent line of work on bandits with adversarial corruptions. Since these challenges co-exist, it is important to understand the robustness of each of these approaches in addressing the other challenges, provide algorithms that can handle all simultaneously, and highlight inherent limitations in this combination. In this work, we show that the most prominent contextual bandit algorithm, $\epsilon$-greedy can be extended to handle the challenges introduced by strategic arms in the contextual multi-arm bandit mechanism setting. We further show that $\epsilon$-greedy is inherently robust to adversarial data corruption attacks and achieves performance that degrades linearly with the amount of corruption. | 翻訳日:2023-07-18 18:37:08 公開日:2023-07-15 |
# gflownetsにおける再生バッファを用いたモード発見の有効性に関する実証的研究 An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode Discovery in GFlowNets ( http://arxiv.org/abs/2307.07674v1 ) ライセンス: Link先を確認 | Nikhil Vemgal, Elaine Lau, Doina Precup | (参考訳) 強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。
GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
GFlowNetsは従来のRLアルゴリズムよりも改良されたモード発見を示しており、薬物発見や組合せ探索などの応用に非常に有用である。
しかし、GFlowNetsは比較的最近のアルゴリズムのクラスであるため、RLで有用なテクニックの多くは、まだそれらと関連付けられていない。
本稿では,GFlowNetの再生バッファの利用について検討する。
実験的に様々なリプレイバッファサンプリング手法を探索し、モード発見の速度と検出モードの品質に与える影響を評価する。
ハイパーグリッドトイドメインと分子合成環境における実験結果は,リプレイバッファを用いたトレーニング時のモード発見において,オンポリシー生成の軌道のみを用いたトレーニングに比べて有意な改善を示した。 Reinforcement Learning (RL) algorithms aim to learn an optimal policy by iteratively sampling actions to learn how to maximize the total expected return, $R(x)$. GFlowNets are a special class of algorithms designed to generate diverse candidates, $x$, from a discrete set, by learning a policy that approximates the proportional sampling of $R(x)$. GFlowNets exhibit improved mode discovery compared to conventional RL algorithms, which is very useful for applications such as drug discovery and combinatorial search. However, since GFlowNets are a relatively recent class of algorithms, many techniques which are useful in RL have not yet been associated with them. In this paper, we study the utilization of a replay buffer for GFlowNets. We explore empirically various replay buffer sampling techniques and assess the impact on the speed of mode discovery and the quality of the modes discovered. Our experimental results in the Hypergrid toy domain and a molecule synthesis environment demonstrate significant improvements in mode discovery when training with a replay buffer, compared to training only with trajectories generated on-policy. | 翻訳日:2023-07-18 18:36:44 公開日:2023-07-15 |
# オンラインマルチエージェント強化学習における効率的な逆襲 Efficient Adversarial Attacks on Online Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2307.07670v1 ) ライセンス: Link先を確認 | Guanlin Liu, Lifeng Lai | (参考訳) マルチエージェント強化学習(MARL)の幅広い応用により、MARLモデルに対する敵攻撃の影響を理解することが、このモデルの安全な適用に不可欠である。
本研究の目的は,MARLに対する敵攻撃の影響を検討することである。
検討された設定では、エージェントがそれらを受け取る前に報酬を修正したり、環境がそれを受け取る前にアクションを操作できる異種攻撃者がいる。
攻撃者は、各エージェントを目標ポリシーに導くこと、あるいは攻撃者が選択した特定の報酬関数の下で累積報酬を最大化することを目的としている。
まず,行動中毒の限界は攻撃のみであり,報酬中毒は攻撃のみであることを示す。
次に,行動中毒と報酬中毒を併用した混合攻撃戦略を提案する。
提案手法は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,効果的にmarlエージェントを攻撃できることを示す。 Due to the broad range of applications of multi-agent reinforcement learning (MARL), understanding the effects of adversarial attacks against MARL model is essential for the safe applications of this model. Motivated by this, we investigate the impact of adversarial attacks on MARL. In the considered setup, there is an exogenous attacker who is able to modify the rewards before the agents receive them or manipulate the actions before the environment receives them. The attacker aims to guide each agent into a target policy or maximize the cumulative rewards under some specific reward function chosen by the attacker, while minimizing the amount of manipulation on feedback and action. We first show the limitations of the action poisoning only attacks and the reward poisoning only attacks. We then introduce a mixed attack strategy with both the action poisoning and the reward poisoning. We show that the mixed attack strategy can efficiently attack MARL agents even if the attacker has no prior information about the underlying environment and the agents' algorithms. | 翻訳日:2023-07-18 18:36:25 公開日:2023-07-15 |
# 人間としての身体時間 Physical Time as Human Time ( http://arxiv.org/abs/2307.07668v1 ) ライセンス: Link先を確認 | Ruth E. Kastner | (参考訳) 物理的な時間を「時間の流れ」という人間の感覚と相反するものとして捉えた「二回問題」の標準的な主張には反対です。
すなわち、物理理論は、時空の発生と関連する量子レベルを考慮した真の時間的ダイナミズムと真に一致しており、後者は特定の量子過程に重宝されている。 I dissent from the standard assertion of a "Two Times Problem," in which physical time is taken as being at odds with the human sense of a "flow of time." I provide a brief overview of the case to be made for the contrary view: namely, that physical theory is indeed consistent with a genuine temporal dynamism that takes into account the quantum level in connection with spacetime emergence, the latter being supervenient on specific quantum processes. | 翻訳日:2023-07-18 18:36:07 公開日:2023-07-15 |
# 大規模言語モデルを活用した解答集合プログラムの作成 Leveraging Large Language Models to Generate Answer Set Programs ( http://arxiv.org/abs/2307.07699v1 ) ライセンス: Link先を確認 | Adam Ishay, Zhun Yang, Joohyung Lee | (参考訳) GPT-3やGPT-4のような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示し、特定の推論問題を解く能力を示している。
しかしながら、それらの推論能力は、様々なプロンプト技術の適用にもかかわらず、限定的で比較的浅い。
対照的に、形式論理は複雑な推論を扱うのに向いているが、自然言語記述を形式論理に変換することは、非専門家が苦しむ課題である。
本稿では,大規模言語モデルの強みと解集合プログラミングを組み合わせたニューロシンボリック手法を提案する。
具体的には,LLMを用いて論理パズルの自然言語記述を解集合プログラムに変換する。
我々は、LLMが自然言語記述を段階的に解集合プログラムに変換するためのプロンプトを慎重に設計する。
驚くことに、いくつかのコンテキスト内学習例によって、llmは合理的に複雑な応答セットプログラムを生成することができる。
エラーの大部分は比較的単純であり、人間が容易に修正できるため、llmは回答セットプログラムの作成を効果的に支援することができる。 Large language models (LLMs), such as GPT-3 and GPT-4, have demonstrated exceptional performance in various natural language processing tasks and have shown the ability to solve certain reasoning problems. However, their reasoning capabilities are limited and relatively shallow, despite the application of various prompting techniques. In contrast, formal logic is adept at handling complex reasoning, but translating natural language descriptions into formal logic is a challenging task that non-experts struggle with. This paper proposes a neuro-symbolic method that combines the strengths of large language models and answer set programming. Specifically, we employ an LLM to transform natural language descriptions of logic puzzles into answer set programs. We carefully design prompts for an LLM to convert natural language descriptions into answer set programs in a step by step manner. Surprisingly, with just a few in-context learning examples, LLMs can generate reasonably complex answer set programs. The majority of errors made are relatively simple and can be easily corrected by humans, thus enabling LLMs to effectively assist in the creation of answer set programs. | 翻訳日:2023-07-18 18:29:30 公開日:2023-07-15 |
# think-on-graph:知識グラフを用いた大規模言語モデルの深く責任ある推論 Think-on-Graph: Deep and Responsible Reasoning of Large Language Model with Knowledge Graph ( http://arxiv.org/abs/2307.07697v1 ) ライセンス: Link先を確認 | Jiashuo Sun, Chengjin Xu, Lumingyuan Tang, Saizhuo Wang, Chen Lin, Yeyun Gong, Heung-Yeung Shum, Jian Guo | (参考訳) 大規模言語モデル(llm)は様々なタスクにおいて大きな進歩を遂げているが、複雑な推論に苦しめられ、知識のトレーサビリティ、タイムライン、正確性が重要なシナリオでは性能が低下している。
このような制約に対処するため,知識グラフを活用したLLMの深層かつ責任ある推論能力を高める新しいフレームワークであるThink-on-Graph(ToG)を提案する。
ToGを利用することで、与えられた質問に関連するエンティティを識別し、探索と推論を行い、外部知識データベースから関連するトリプルを検索することができる。
逐次接続された三重項からなる複数の推論経路を、質問に答えるのに十分な情報を集めるか、最大深さに達するまで生成する。
複雑なマルチホップ推論課題の実験を通じて, tog が既存の手法よりも優れており,追加のトレーニングコストを伴わずに llm の限界を効果的に解決できることを実証する。 Large language models (LLMs) have made significant strides in various tasks, yet they often struggle with complex reasoning and exhibit poor performance in scenarios where knowledge traceability, timeliness, and accuracy are crucial. To address these limitations, we present Think-on-Graph (ToG), a novel framework that leverages knowledge graphs to enhance LLMs' ability for deep and responsible reasoning. By employing ToG, we can identify entities relevant to a given question and conduct exploration and reasoning to retrieve related triples from an external knowledge database. This iterative procedure generates multiple reasoning pathways consisting of sequentially connected triplets until sufficient information is gathered to answer the question or the maximum depth is reached. Through experiments on complex multi-hop reasoning question-answering tasks, we demonstrate that ToG outperforms existing methods, effectively addressing the aforementioned limitations of LLMs without incurring additional training costs. | 翻訳日:2023-07-18 18:28:59 公開日:2023-07-15 |
# ロバストおよびテキストからの一般推論のための論理プログラミングによる大規模言語モデルの結合 Coupling Large Language Models with Logic Programming for Robust and General Reasoning from Text ( http://arxiv.org/abs/2307.07696v1 ) ライセンス: Link先を確認 | Zhun Yang, Adam Ishay, Joohyung Lee | (参考訳) GPT-3のような大規模言語モデル(LLM)は、堅牢で一般的なように見えるが、それらの推論能力は、特定の自然言語推論問題のために訓練された最良のモデルと競合するレベルには達していない。
本研究では,大規模な言語モデルが,非常に効果的な複数ショットセマンティックパーザとして機能することを観察する。
自然言語文を論理ベースの宣言的知識表現形式である解集合プログラムの入力として機能する論理形式に変換することができる。
この組み合わせにより、複数の質問応答タスクを新しいタスクごとに再訓練することなく処理できる堅牢で汎用的なシステムが得られる。
複数のタスクに適用可能な再利用可能なASP知識モジュールとともに、LLMの特定のタスクへの適応を導くためのサンプルはわずかである。
本手法は,bAbI, StepGame, CLUTRR, gSCANなど,いくつかのNLPベンチマークにおける最先端性能を実現する。
さらに、LLMだけでは解決できないロボット計画タスクに取り組むことに成功した。 While large language models (LLMs), such as GPT-3, appear to be robust and general, their reasoning ability is not at a level to compete with the best models trained for specific natural language reasoning problems. In this study, we observe that a large language model can serve as a highly effective few-shot semantic parser. It can convert natural language sentences into a logical form that serves as input for answer set programs, a logic-based declarative knowledge representation formalism. The combination results in a robust and general system that can handle multiple question-answering tasks without requiring retraining for each new task. It only needs a few examples to guide the LLM's adaptation to a specific task, along with reusable ASP knowledge modules that can be applied to multiple tasks. We demonstrate that this method achieves state-of-the-art performance on several NLP benchmarks, including bAbI, StepGame, CLUTRR, and gSCAN. Additionally, it successfully tackles robot planning tasks that an LLM alone fails to solve. | 翻訳日:2023-07-18 18:28:29 公開日:2023-07-15 |
# 機械学習による代数的マルチグリッドにおける演算子複雑性の低減 Reducing operator complexity in Algebraic Multigrid with Machine Learning Approaches ( http://arxiv.org/abs/2307.07695v1 ) ライセンス: Link先を確認 | Ru Huang, Kai Chang, Huan He, Ruipeng Li, Yuanzhe Xi | (参考訳) 本稿では,代数的多重グリッド(AMG)法で非ガレルキン粗グリッド演算子を計算するためのデータ駆動型機械学習手法を提案する。
スペクトル等価な粗グリッド作用素に関するAMG理論により、ニューラルネットワーク(NN)とマルチグリッド固有値問題からの滑らかなテストベクトルを組み合わせた新しいMLアルゴリズムを開発した。
提案手法は,パラメトリック偏微分方程式(pde)問題を解くために,全体的な amg 収束を維持しつつ,粗い格子作用素の複雑性を低減できる可能性を示す。
異方性回転ラプラシアンおよび線形弾性問題に関する数値実験を行い,非ガレルキン粗格子作用素の計算法との比較を行った。 We propose a data-driven and machine-learning-based approach to compute non-Galerkin coarse-grid operators in algebraic multigrid (AMG) methods, addressing the well-known issue of increasing operator complexity. Guided by the AMG theory on spectrally equivalent coarse-grid operators, we have developed novel ML algorithms that utilize neural networks (NNs) combined with smooth test vectors from multigrid eigenvalue problems. The proposed method demonstrates promise in reducing the complexity of coarse-grid operators while maintaining overall AMG convergence for solving parametric partial differential equation (PDE) problems. Numerical experiments on anisotropic rotated Laplacian and linear elasticity problems are provided to showcase the performance and compare with existing methods for computing non-Galerkin coarse-grid operators. | 翻訳日:2023-07-18 18:27:45 公開日:2023-07-15 |
# 2次元スパルス心磁気共鳴画像からの2次元心筋形状再構成とモデリングのためのニューラルデフォルマブルモデル Neural Deformable Models for 3D Bi-Ventricular Heart Shape Reconstruction and Modeling from 2D Sparse Cardiac Magnetic Resonance Imaging ( http://arxiv.org/abs/2307.07693v1 ) ライセンス: Link先を確認 | Meng Ye, Dong Yang, Mikael Kanski, Leon Axel, Dimitris Metaxas | (参考訳) 2d sparse heart magnetic resonance (cmr) 画像データから心臓の3次元心室形状の再構成とモデリングを目標とした新しい神経変形モデル(ndm)を提案する。
両心室形状を混合変形可能なスーパークワッドリックを用いてモデル化し, パラメータ関数の集合によってパラメータ化され, グローバルかつ局所的に変形することができる。
大域的幾何パラメータ関数と変形は視覚データから全体形状の特徴を捉えるが、局所的変形は神経二相性点流としてパラメータ化され、詳細な心臓形状を回復するために学習することができる。従来の変形可能なモデル定式化で使われる反復的最適化法とは異なり、ndmsはそのような幾何学的パラメータ関数、大域的および局所的な変形を形状分布多様体から学ぶように訓練することができる。
我々のNDMは、任意のスケールで疎い心点雲を密度化し、高品質な三角メッシュを自動的に生成することを学ぶことができる。
また、異なる心臓形状のインスタンス間の密接な対応を暗黙的に学習し、正確な心臓形状の登録を可能にする。
さらに、NDMのパラメータは直感的であり、高度な後処理なしで医師が使用することができる。
大規模cmrデータセットにおける実験結果から,従来の手法に比べてndmの性能が向上した。 We propose a novel neural deformable model (NDM) targeting at the reconstruction and modeling of 3D bi-ventricular shape of the heart from 2D sparse cardiac magnetic resonance (CMR) imaging data. We model the bi-ventricular shape using blended deformable superquadrics, which are parameterized by a set of geometric parameter functions and are capable of deforming globally and locally. While global geometric parameter functions and deformations capture gross shape features from visual data, local deformations, parameterized as neural diffeomorphic point flows, can be learned to recover the detailed heart shape.Different from iterative optimization methods used in conventional deformable model formulations, NDMs can be trained to learn such geometric parameter functions, global and local deformations from a shape distribution manifold. Our NDM can learn to densify a sparse cardiac point cloud with arbitrary scales and generate high-quality triangular meshes automatically. It also enables the implicit learning of dense correspondences among different heart shape instances for accurate cardiac shape registration. Furthermore, the parameters of NDM are intuitive, and can be used by a physician without sophisticated post-processing. Experimental results on a large CMR dataset demonstrate the improved performance of NDM over conventional methods. | 翻訳日:2023-07-18 18:27:21 公開日:2023-07-15 |
# 文書画像における変化検出手法の検討 A Survey on Change Detection Techniques in Document Images ( http://arxiv.org/abs/2307.07691v1 ) ライセンス: Link先を確認 | Abhinandan Kumar Pun and Mohammed Javed and David S. Doermann | (参考訳) 画像における変化検出の問題は、医療分野における病気の診断、リモートセンシングによる都市の成長パターンの検出、法的文書や契約の変更など、さまざまな分野で応用されている。
しかし,本研究では,文書画像の異なるバージョンの変化を検出するためのコア技術とルールについて調査する。
変更検出に関する議論は、コンテンツベースとレイアウトベースという2つのカテゴリに焦点を当てています。
コンテンツベース技術は画像コンテンツ(テキストまたは非テキスト)をインテリジェントに抽出・分析し、その違いを提示するが、レイアウトベース技術では文書変更を予測するために構造情報を使用する。
また、変更検出実験で使用される既存のデータセットと評価メトリクスを要約する。
既存の手法が直面する欠点と課題が報告され、今後の研究課題のポイントも報告されている。 The problem of change detection in images finds application in different domains like diagnosis of diseases in the medical field, detecting growth patterns of cities through remote sensing, and finding changes in legal documents and contracts. However, this paper presents a survey on core techniques and rules to detect changes in different versions of a document image. Our discussions on change detection focus on two categories -- content-based and layout-based. The content-based techniques intelligently extract and analyze the image contents (text or non-text) to show the possible differences, whereas the layout-based techniques use structural information to predict document changes. We also summarize the existing datasets and evaluation metrics used in change detection experiments. The shortcomings and challenges the existing methods face are reported, along with some pointers for future research work. | 翻訳日:2023-07-18 18:27:01 公開日:2023-07-15 |
# DRM-IR:オールインワン画像復元のためのタスク適応型ディープ展開ネットワーク DRM-IR: Task-Adaptive Deep Unfolding Network for All-In-One Image Restoration ( http://arxiv.org/abs/2307.07688v1 ) ライセンス: Link先を確認 | Yuanshuo Cheng, Mingwen Shao, Yecong Wan, Chao Wang, Wangmeng Zuo | (参考訳) 既存のオールインワン画像復元法(IR)は、通常、様々な種類の劣化の柔軟なモデリングを欠いているため、復元性能を損なう。
そこで本研究では,タスク適応型劣化モデルとモデルベース画像復元からなる効率的な動的参照モデリングパラダイム(drm-ir)を提案する。
具体的には、これら2つのサブタスクは、エンタングルド参照ベースの最大 a posteriori (map) 推論のペアとして形式化され、展開ベースの方法で同期的に最適化される。
2つのカスケードされたサブタスクを用いて、DRM-IRはまず参照画像ペアに基づいてタスク固有の劣化を動的にモデル化し、さらに収集された劣化統計を用いて画像の復元を行う。
さらに、参照と対象の劣化画像間のセマンティックギャップを埋めるために、インスタンス固有の特徴差を抑制する分解優先送信器(DPT)を考案する。
DRM-IRは、解釈可能でありながら、オールインワンのIRに優れた柔軟性を提供する。
複数のベンチマークデータセットに対する大規模な実験は、DRM-IRがAll-In-One IRの最先端を達成していることを示している。 Existing All-In-One image restoration (IR) methods usually lack flexible modeling on various types of degradation, thus impeding the restoration performance. To achieve All-In-One IR with higher task dexterity, this work proposes an efficient Dynamic Reference Modeling paradigm (DRM-IR), which consists of task-adaptive degradation modeling and model-based image restoring. Specifically, these two subtasks are formalized as a pair of entangled reference-based maximum a posteriori (MAP) inferences, which are optimized synchronously in an unfolding-based manner. With the two cascaded subtasks, DRM-IR first dynamically models the task-specific degradation based on a reference image pair and further restores the image with the collected degradation statistics. Besides, to bridge the semantic gap between the reference and target degraded images, we further devise a Degradation Prior Transmitter (DPT) that restrains the instance-specific feature differences. DRM-IR explicitly provides superior flexibility for All-in-One IR while being interpretable. Extensive experiments on multiple benchmark datasets show that our DRM-IR achieves state-of-the-art in All-In-One IR. | 翻訳日:2023-07-18 18:26:49 公開日:2023-07-15 |
# OpenMP FortranとC++コードの変換をサポートするデータセットの作成 Creating a Dataset Supporting Translation Between OpenMP Fortran and C++ Code ( http://arxiv.org/abs/2307.07686v1 ) ライセンス: Link先を確認 | Bin Lei, Caiwen Ding, Le Chen, Pei-Hung Lin, Chunhua Liao | (参考訳) 本研究では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルを学習するための新しいデータセットを提案する。
信頼性と適用性を保証するため、データセットはまず、微妙なコード類似性テストを使用して洗練される。
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,データセットの有効性を評価する。
我々は,このデータセットが大規模言語モデルの翻訳能力を大幅に向上させる方法を示し,事前のコーディング知識のないモデルでは \times 5.1 ,コーディングに精通したモデルでは \times 9.9 を改良した。
我々の研究は、このデータセットがハイパフォーマンスコンピューティングのためのコード翻訳分野を前進させる可能性を強調している。 In this study, we present a novel dataset for training machine learning models translating between OpenMP Fortran and C++ code. To ensure reliability and applicability, the dataset is initially refined using a meticulous code similarity test. The effectiveness of our dataset is assessed using both quantitative (CodeBLEU) and qualitative (human evaluation) methods. We demonstrate how this dataset can significantly improve the translation capabilities of large-scale language models, with improvements of \times 5.1 for models with no prior coding knowledge and \times 9.9 for models with some coding familiarity. Our work highlights the potential of this dataset to advance the field of code translation for high-performance computing. | 翻訳日:2023-07-18 18:26:26 公開日:2023-07-15 |
# 位置と運動量の同時測定におけるガウス三成分の絡み合い Gaussian tripartite entanglement in the simultaneous measurement of position and momentum ( http://arxiv.org/abs/2307.07685v1 ) ライセンス: Link先を確認 | J. A. Mendoza-Fierro and L. M. Ar\'evalo Aguilar | (参考訳) 本研究では, アーサースとケリーによる位置・運動量観測装置の同時測定プロセスにおいて, 試験対象のシステムが回転, 変位, 圧縮された真空状態である場合の計測構成を考慮し, 真の三成分連続的絡み合いの発生を証明した。
これらの仮定の下では、測定構成は完全にガウス波動関数によって記述される。
次に、正の部分的転置基準を通じて、システムの3つの (1対2) モード二分割の非分離性をテストすることにより、真の三成分の絡み合いを確認した。
この過程により、[Giedke et al., Phys. Rev. A 64, 052303 (2001)] で暴露された分類に従って、完全に分離できないガウス状態の圏における絡み合いの質的な性質を分類することができる。
また, 残留三分体r\'enyi-2をモノトンとして, 定量的な絡み合い特性を決定する。 In this work, we prove the generation of genuine tripartite continuous-variable entanglement in the simultaneous measurement process of position and momentum observables raised by Arthurs and Kelly, considering a measurement configuration where the system under examination is a rotated, displaced, and squeezed vacuum state. Under these assumptions, the measurement configuration is entirely described by a Gaussian wave function. Then, through the positive partial transpose criterion, we certify genuine tripartite entanglement by testing the non-separability of the three (1 vs 2)-mode bipartitions of the system. This process allows us to classify the qualitative properties of the entanglement in the category of fully inseparable Gaussian states according to the classification exposed in [Giedke et al., Phys. Rev. A 64, 052303 (2001)]. Besides, we determine the quantitative entanglement properties of the system using the residual tripartite R\'enyi-2 entanglement as monotone. | 翻訳日:2023-07-18 18:26:14 公開日:2023-07-15 |
# シングルスピーカとマルチスピーカによる音声検出:知覚から学習まで Single and Multi-Speaker Cloned Voice Detection: From Perceptual to Learned Features ( http://arxiv.org/abs/2307.07683v1 ) ライセンス: Link先を確認 | Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid | (参考訳) 合成音声クローニング技術は近年顕著な進歩を遂げており、潜在的な害をもたらす可能性がある。
小規模で大規模な金融詐欺から偽情報キャンペーンまで、実声と合成音声を区別するための信頼性の高い方法の必要性は不可欠である。
特定人物の身振りを意図したクローン音声と現実を区別する3つの手法について述べる。
これらの3つのアプローチは特徴抽出段階において、高い解釈性を提供する低次元の知覚的特徴と、一般的なスペクトル特徴、より少ない解釈性を提供するエンドツーエンド学習特徴との相違がある。
一つの話者の音声で訓練し,複数の声で訓練した場合には,これらのアプローチの有効性を示す。
学習した特徴は、常に$0\%$から$4\%$の間で等しいエラー率をもたらし、敵の洗浄に対して合理的に堅牢である。 Synthetic-voice cloning technologies have seen significant advances in recent years, giving rise to a range of potential harms. From small- and large-scale financial fraud to disinformation campaigns, the need for reliable methods to differentiate real and synthesized voices is imperative. We describe three techniques for differentiating a real from a cloned voice designed to impersonate a specific person. These three approaches differ in their feature extraction stage with low-dimensional perceptual features offering high interpretability but lower accuracy, to generic spectral features, and end-to-end learned features offering less interpretability but higher accuracy. We show the efficacy of these approaches when trained on a single speaker's voice and when trained on multiple voices. The learned features consistently yield an equal error rate between $0\%$ and $4\%$, and are reasonably robust to adversarial laundering. | 翻訳日:2023-07-18 18:25:54 公開日:2023-07-15 |
# 2つのRF-SET電荷相関を用いたシングルショットビット読み出しの改善 Improved Single-Shot Qubit Readout Using Twin RF-SET Charge Correlations ( http://arxiv.org/abs/2307.07724v1 ) ライセンス: Link先を確認 | Santiago Serrano, MengKe Feng, Wee Han Lim, Amanda E. Seedhouse, Tuomo Tanttu, Will Gilbert, Christopher C. Escott, Nikolay V. Abrosimov, Hans-Joachim Pohl, Michael L. W. Thewalt, Fay E. Hudson, Andre Saraiva, Andrew S. Dzurak, Arne Laucht | (参考訳) 量子誤り訂正プロトコルを実装し、フォールトトレラントな量子コンピューティングを達成するために必要なしきい値を得るためには、高い忠実度量子ビットの読み出しが不可欠である。
大規模なシリコン量子ビットデバイスは、複数の電荷センサーを備えた高密度の量子ドットの配列を持ち、平均して量子ドットから遠く離れており、読み出しフィリティの低下を伴っている。
本稿では,一対の単電子トランジスタ(ツインSET)間の相関を増幅することにより,線形SiMOS 4ドットアレイの読み出し精度を向上させる読み出し手法を提案する。
電荷遷移を通じてドットのデチューニングを変調する双対集合トレースを記録・関連付けすることにより、従来の読み出し法と比較して電荷の読み出し不忠実度を1桁以上低減できることを実証する。
また、変調法によって導入されたスピン間変換誤差について検討し、高速な変調周波数はスピンフリップ誤差を伴わずに緩和誘起誤差を回避し、短い積分時間での使用を好んでいると結論付けた。
この方法は、高速で高密度の量子ビット測定を可能にするだけでなく、センサから遠く離れた場所で発生する電荷遷移に対応する信号も強化し、大規模な量子ビット配列における読み出しフィデリティの低減を回避することができる。 High fidelity qubit readout is critical in order to obtain the thresholds needed to implement quantum error correction protocols and achieve fault-tolerant quantum computing. Large-scale silicon qubit devices will have densely-packed arrays of quantum dots with multiple charge sensors that are, on average, farther away from the quantum dots, entailing a reduction in readout fidelities. Here, we present a readout technique that enhances the readout fidelity in a linear SiMOS 4-dot array by amplifying correlations between a pair of single-electron transistors, known as a twin SET. By recording and subsequently correlating the twin SET traces as we modulate the dot detuning across a charge transition, we demonstrate a reduction in the charge readout infidelity by over one order of magnitude compared to traditional readout methods. We also study the spin-to-charge conversion errors introduced by the modulation technique, and conclude that faster modulation frequencies avoid relaxation-induced errors without introducing significant spin flip errors, favouring the use of the technique at short integration times. This method not only allows for faster and higher fidelity qubit measurements, but it also enhances the signal corresponding to charge transitions that take place farther away from the sensors, enabling a way to circumvent the reduction in readout fidelities in large arrays of qubits. | 翻訳日:2023-07-18 18:20:15 公開日:2023-07-15 |
# 学習可能な3次元グループ畳み込みに基づく空間スペクトルハイパースペクトル分類 Spatial-Spectral Hyperspectral Classification based on Learnable 3D Group Convolution ( http://arxiv.org/abs/2307.07720v1 ) ライセンス: Link先を確認 | Guandong Li, Mengxia Ye | (参考訳) 深層ニューラルネットワークはハイパースペクトル画像分類において多くの問題に直面しており、スペクトル空間ジョイント情報の非有効利用や、深さの増加に伴う勾配の消失や過剰フィッティングの問題などが挙げられる。
本稿では,厳密なレイテンシ要求と計算能力の制限を伴うエッジデバイスへのモデルのデプロイを高速化するために,改良された3d-densenetモデルと軽量モデル設計に基づく学習可能なグループ畳み込みネットワーク(lgcnet)を提案する。
LGCNetモジュールは、入力チャネルと畳み込みカーネルのグルーピングのための動的学習手法を導入し、柔軟なグルーピング構造を実現し、表現能力を向上させることで、グループ畳み込みの欠点を改善する。
バックプロパゲーションネットワークの全体的な損失と勾配により、3Dグループ畳み込みは動的に決定され、エンドツーエンドで更新される。
学習可能なチャンネル数と対応するグループ化は、入力画像の異なる相補的な視覚特徴を捉えることができ、cnnはより豊かな特徴表現を学ぶことができる。
高次元および冗長な超スペクトルデータを抽出する場合、3次元畳み込みカーネルは大量の冗長情報も含む。
lgcモジュールにより、3d-densenetは、よりセマンティックな特徴を持つチャネル情報を選択することができ、非常に効率的である。
LGCは、3D-CNNが十分な特徴抽出を実現し、速度と計算の要求を満たす。
さらに、LGCNetは推論速度と精度の進歩を達成し、インドパインズ、パヴィア大学、KSCのデータセットにおいて、主流のハイパースペクトル画像分類法より優れている。 Deep neural networks have faced many problems in hyperspectral image classification, including the ineffective utilization of spectral-spatial joint information and the problems of gradient vanishing and overfitting that arise with increasing depth. In order to accelerate the deployment of models on edge devices with strict latency requirements and limited computing power, this paper proposes a learnable group convolution network (LGCNet) based on an improved 3D-DenseNet model and a lightweight model design. The LGCNet module improves the shortcomings of group convolution by introducing a dynamic learning method for the input channels and convolution kernel grouping, enabling flexible grouping structures and generating better representation ability. Through the overall loss and gradient of the backpropagation network, the 3D group convolution is dynamically determined and updated in an end-to-end manner. The learnable number of channels and corresponding grouping can capture different complementary visual features of input images, allowing the CNN to learn richer feature representations. When extracting high-dimensional and redundant hyperspectral data, the 3D convolution kernels also contain a large amount of redundant information. The LGC module allows the 3D-DenseNet to choose channel information with more semantic features, and is very efficient, making it suitable for embedding in any deep neural network for acceleration and efficiency improvements. LGC enables the 3D-CNN to achieve sufficient feature extraction while also meeting speed and computing requirements. Furthermore, LGCNet has achieved progress in inference speed and accuracy, and outperforms mainstream hyperspectral image classification methods on the Indian Pines, Pavia University, and KSC datasets. | 翻訳日:2023-07-18 18:19:52 公開日:2023-07-15 |
# 変分量子固有解法を用いた変分量子モンテカルロの加速 Accelerating variational quantum Monte Carlo using the variational quantum eigensolver ( http://arxiv.org/abs/2307.07719v1 ) ライセンス: Link先を確認 | Ashley Montanaro and Stasja Stanisic | (参考訳) 変分モンテカルロ(vmc)法は、効率的な古典的記述を持つ量子状態に対応する分布から古典的にサンプリングするために用いられる。
VMCメソッドは、単純な初期分布からのサンプルから始まるマルコフチェーンの複数のステップを実行することに基づいている。
本稿では,この初期分布を量子コンピュータを用いて生成したサンプル,例えば変分量子固有解法(VQE)で置き換えることを提案する。
数値シミュレーションや量子ハードウェアの実験によって生成された初期分布を用いて、古典的なサンプルと比較して目標分布への収束を加速し、VQEによる状態のエネルギーと比較してエネルギーを低減し、小さな量子コンピュータによって生成されたVQE状態を用いてVMCの大規模インスタンスを加速できることが示されている。
量子強化VMCは、量子コンピュータの最小限の要件を定め、複雑な量子システムの基底状態を正確に表現できない、短期量子コンピュータのノイズの多いサンプルを用いて古典的な手法を加速する可能性を提供する。 Variational Monte Carlo (VMC) methods are used to sample classically from distributions corresponding to quantum states which have an efficient classical description. VMC methods are based on performing a number of steps of a Markov chain starting with samples from a simple initial distribution. Here we propose replacing this initial distribution with samples produced using a quantum computer, for example using the variational quantum eigensolver (VQE). We show that, based on the use of initial distributions generated by numerical simulations and by experiments on quantum hardware, convergence to the target distribution can be accelerated compared with classical samples; the energy can be reduced compared with the energy of the state produced by VQE; and VQE states produced by small quantum computers can be used to accelerate large instances of VMC. Quantum-enhanced VMC makes minimal requirements of the quantum computer and offers the prospect of accelerating classical methods using noisy samples from near-term quantum computers which are not yet able to accurately represent ground states of complex quantum systems. | 翻訳日:2023-07-18 18:19:25 公開日:2023-07-15 |
# 機械学習のためのビジュアル分析: データパースペクティブ調査 Visual Analytics For Machine Learning: A Data Perspective Survey ( http://arxiv.org/abs/2307.07712v1 ) ライセンス: Link先を確認 | Junpeng Wang, Shixia Liu, Wei Zhang | (参考訳) 過去10年間、可視化(VIS)の力を利用して機械学習(ML)モデルを解釈する、数多くの作品が見られた。
対応する研究トピックであるVIS4MLは、急速に成長を続けている。
膨大な作業の整理とVIS4MLの進展傾向を明らかにするため,本調査を通じてこれらの作業の体系的レビューを行う。
データ品質はMLモデルの性能に大きく影響するため、データの観点からのVIS4MLの動作の要約に特化しています。
まず、MLモデルで処理される共通データを5つのタイプに分類し、各タイプのユニークな特徴を説明し、それらから学習できる対応するMLモデルを強調する。
第2に、多数のVIS4ML作業から、この種のデータ(すなわちデータ中心タスク)をMLパイプラインのさまざまな段階で運用する6つのタスクをティースして、MLモデルを理解し、診断し、洗練する。
最後に,5つのデータタイプ,6つのデータ中心タスク,それらの交差点にまたがる143の論文の分布を調査し,今後の研究動向について考察する。 The past decade has witnessed a plethora of works that leverage the power of visualization (VIS) to interpret machine learning (ML) models. The corresponding research topic, VIS4ML, keeps growing at a fast pace. To better organize the enormous works and shed light on the developing trend of VIS4ML, we provide a systematic review of these works through this survey. Since data quality greatly impacts the performance of ML models, our survey focuses specifically on summarizing VIS4ML works from the data perspective. First, we categorize the common data handled by ML models into five types, explain the unique features of each type, and highlight the corresponding ML models that are good at learning from them. Second, from the large number of VIS4ML works, we tease out six tasks that operate on these types of data (i.e., data-centric tasks) at different stages of the ML pipeline to understand, diagnose, and refine ML models. Lastly, by studying the distribution of 143 surveyed papers across the five data types, six data-centric tasks, and their intersections, we analyze the prospective research directions and envision future research trends. | 翻訳日:2023-07-18 18:19:06 公開日:2023-07-15 |
# exposurediffusion:低光度画像強調のための露光学習 ExposureDiffusion: Learning to Expose for Low-light Image Enhancement ( http://arxiv.org/abs/2307.07710v1 ) ライセンス: Link先を確認 | Yufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex C. Kot, Bihan Wen | (参考訳) 以前の生画像に基づく低照度画像強調手法は、主にフィードフォワードニューラルネットワークに頼り、低照度から通常露光画像への決定論的マッピングを学習した。
しかし、彼らは重要な分布情報の取得に失敗し、視覚的に望ましくない結果をもたらした。
本研究は拡散モデルと物理系露出モデルとをシームレスに統合することでこの問題に対処した。
ガウス音を発生させるバニラ拡散モデルと異なり, 物理系露出モデルでは, 純粋な雑音ではなく, ノイズ画像から直接復元を行うことができる。
そこで本手法は,バニラ拡散モデルと比較して性能と推論時間を大幅に改善する。
異なる中間段階の利点をフル活用するために, 中間結果が既に十分に提示されている場合に, 繰り返し改良の副作用を効果的に除去する適応残留層を提案する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
提案するフレームワークは、実際のペア付きデータセット、実/合成ノイズモデル、異なるバックボーンネットワークと互換性がある。
提案手法は,様々な公開ベンチマークで評価し,異なる露光モデルとバックボーンを用いて一貫した改善を行い,有望な結果を得た。
また,提案手法は,パラメータの少ない大きなフィードフォワードニューラルモデルよりも,アンセンシング増幅率の一般化能力と優れた性能を実現する。 Previous raw image-based low-light image enhancement methods predominantly relied on feed-forward neural networks to learn deterministic mappings from low-light to normally-exposed images. However, they failed to capture critical distribution information, leading to visually undesirable results. This work addresses the issue by seamlessly integrating a diffusion model with a physics-based exposure model. Different from a vanilla diffusion model that has to perform Gaussian denoising, with the injected physics-based exposure model, our restoration process can directly start from a noisy image instead of pure noise. As such, our method obtains significantly improved performance and reduced inference time compared with vanilla diffusion models. To make full use of the advantages of different intermediate steps, we further propose an adaptive residual layer that effectively screens out the side-effect in the iterative refinement when the intermediate results have been already well-exposed. The proposed framework can work with both real-paired datasets, SOTA noise models, and different backbone networks. Note that, the proposed framework is compatible with real-paired datasets, real/synthetic noise models, and different backbone networks. We evaluate the proposed method on various public benchmarks, achieving promising results with consistent improvements using different exposure models and backbones. Besides, the proposed method achieves better generalization capacity for unseen amplifying ratios and better performance than a larger feedforward neural model when few parameters are adopted. | 翻訳日:2023-07-18 18:18:45 公開日:2023-07-15 |
# PSGformer: 精密セマンティックガイダンスによる3Dポイントクラウドインスタンスセグメンテーションの強化 PSGformer: Enhancing 3D Point Cloud Instance Segmentation via Precise Semantic Guidance ( http://arxiv.org/abs/2307.07708v1 ) ライセンス: Link先を確認 | Lei Pan, Wuyang Luan, Yuan Zheng, Qiang Fu, Junhui Li | (参考訳) 既存の3Dインスタンスセグメンテーション手法の多くは、3Dセグメンテーションモデルから派生している。
しかし、これらの間接的なアプローチは特定の制限に悩まされる。
正確な予測のためにグローバルとローカルのセマンティック情報を十分に活用できないため、3dインスタンスセグメンテーションフレームワークの全体的なパフォーマンスが損なわれる。
そこで本研究では,新しい3Dインスタンス分割ネットワークPSGformerを提案する。
PSGformerは2つの重要な進歩を取り入れ、3Dインスタンスセグメンテーションのパフォーマンスを向上させる。
まず,前景点フィルタリングとマルチラジウスアグリゲーションを用いてシーン特徴を効果的に捉えるマルチレベルセマンティクスアグリゲーションモジュールを提案する。
このモジュールは、グローバルおよびローカルの観点からより詳細な意味情報の取得を可能にする。
第二にPSGformerは並列フィーチャーフュージョントランスフォーマーモジュールを導入し、トランスフォーマーを使用してスーパーポイント特徴と集約された特徴を独立して処理する。
このモデルは、グローバル機能とローカル機能をつなぐ機能によって、より包括的な機能表現を実現する。
scannetv2データセットについて広範な実験を行った。
特にPSGformerは、mAPの点でScanNetv2の隠れテストセットで比較した最先端のメソッドを2.2%上回る。
私たちのコードとモデルは公開されます。 Most existing 3D instance segmentation methods are derived from 3D semantic segmentation models. However, these indirect approaches suffer from certain limitations. They fail to fully leverage global and local semantic information for accurate prediction, which hampers the overall performance of the 3D instance segmentation framework. To address these issues, this paper presents PSGformer, a novel 3D instance segmentation network. PSGformer incorporates two key advancements to enhance the performance of 3D instance segmentation. Firstly, we propose a Multi-Level Semantic Aggregation Module, which effectively captures scene features by employing foreground point filtering and multi-radius aggregation. This module enables the acquisition of more detailed semantic information from global and local perspectives. Secondly, PSGformer introduces a Parallel Feature Fusion Transformer Module that independently processes super-point features and aggregated features using transformers. The model achieves a more comprehensive feature representation by the features which connect global and local features. We conducted extensive experiments on the ScanNetv2 dataset. Notably, PSGformer exceeds compared state-of-the-art methods by 2.2% on ScanNetv2 hidden test set in terms of mAP. Our code and models will be publicly released. | 翻訳日:2023-07-18 18:18:19 公開日:2023-07-15 |
# cpet:圧縮大言語モデルにおけるパラメータ効率の効果的なチューニング CPET: Effective Parameter-Efficient Tuning for Compressed Large Language Models ( http://arxiv.org/abs/2307.07705v1 ) ライセンス: Link先を確認 | Weilin Zhao, Yuxiang Huang, Xu Han, Zhiyuan Liu, Zhengyan Zhang, Maosong Sun | (参考訳) パラメータ効率チューニング (PET) は, パラメータ (PETモジュール) をフルパラメータ細調整 (FT) よりもはるかに少なく調整できる一方で, 下流タスクのための大規模言語モデル (LLM) からの十分な知識を刺激できるため, 近年広く研究されている。
さらに、複数のタスクにPETを使う場合、異なるタスク固有のPETモジュールを凍結したLCM上に構築することができ、冗長なLCM配置を避けることができる。
PET は LLM のチューニングとデプロイのコストを大幅に削減するが、その推論は LLM の計算ボトルネックに悩まされている。
上記の課題に対処するため, 圧縮LCMをベースとした効果的なPETフレームワーク"CPET"を提案する。
CPETでは,LLM圧縮技術がPET性能に与える影響を評価し,これらの圧縮技術による知識損失を回復するための知識継承と回復戦略を導入する。
実験の結果, CPET の復元戦略により, 圧縮 LLM を用いたタスク固有 PET モジュールの協調作業は, 圧縮 LLM のオリジナルバージョンによる PET モジュールの協調作業に匹敵し, 圧縮 LLM に対してバニラ PET メソッドを直接適用した場合よりも優れることがわかった。 Parameter-efficient tuning (PET) has been widely explored in recent years because it tunes much fewer parameters (PET modules) than full-parameter fine-tuning (FT) while still stimulating sufficient knowledge from large language models (LLMs) for downstream tasks. Moreover, when PET is employed to serve multiple tasks, different task-specific PET modules can be built on a frozen LLM, avoiding redundant LLM deployments. Although PET significantly reduces the cost of tuning and deploying LLMs, its inference still suffers from the computational bottleneck of LLMs. To address the above issue, we propose an effective PET framework based on compressed LLMs, named "CPET". In CPET, we evaluate the impact of mainstream LLM compression techniques on PET performance and then introduce knowledge inheritance and recovery strategies to restore the knowledge loss caused by these compression techniques. Our experimental results demonstrate that, owing to the restoring strategies of CPET, collaborating task-specific PET modules with a compressed LLM can achieve comparable performance to collaborating PET modules with the original version of the compressed LLM and outperform directly applying vanilla PET methods to the compressed LLM. | 翻訳日:2023-07-18 18:18:00 公開日:2023-07-15 |
# マトリックス分解による確率の同定:黒穴データへの適用 Identification of Stochasticity by Matrix-decomposition: Applied on Black Hole Data ( http://arxiv.org/abs/2307.07703v1 ) ライセンス: Link先を確認 | Sai Pradeep Chakka, Sunil Kumar Vengalil, Neelam Sinha | (参考訳) 確率的(ノイズのような)あるいは非確率的(構造的)な時系列分類は、いくつかの領域における基盤となるダイナミクスを理解するのに役立つ。
本稿では,2つの相補的手法を用いた2脚行列分解に基づくアルゴリズムを提案する。
Singular Value Decomposition (SVD) に基づく解析脚では、時間情報を含む特異ベクトル上で位相解析(ベッチ数)を行い、SVDラベルを生成する。
同時に、時間順序に依存しない主成分分析(PCA)を行い、提案したPCAの特徴を計算した。
これらの特徴は、2つのラベルの合成時空から抽出され、時間軸を線形に分離可能な特徴空間にマッピングする。
Support Vector Machine (SVM)はPCAラベルを作成するために使用される。
提案手法は, ホワイトノイズ, ピンクノイズ(確率), 成長速度4のロジスティックマップ, ローレンツ系(非確率)の41種を概念実証として合成データに適用した。
提案されたアルゴリズムは、平均長さ25,000のRXTE衛星から得られた12時間クラスのブラックホール GRS 1915+105 に適用される。
特定の時刻について、SVD-labelとPCA-labelが一致した場合、そのラベルは保持される。
得られた結果と文献との比較を行った。
その結果, GRS 1915+105 の12時間クラスのうち, SVD-label と PCA-label の一致率が 11 であることがわかった。 Timeseries classification as stochastic (noise-like) or non-stochastic (structured), helps understand the underlying dynamics, in several domains. Here we propose a two-legged matrix decomposition-based algorithm utilizing two complementary techniques for classification. In Singular Value Decomposition (SVD) based analysis leg, we perform topological analysis (Betti numbers) on singular vectors containing temporal information, leading to SVD-label. Parallely, temporal-ordering agnostic Principal Component Analysis (PCA) is performed, and the proposed PCA-derived features are computed. These features, extracted from synthetic timeseries of the two labels, are observed to map the timeseries to a linearly separable feature space. Support Vector Machine (SVM) is used to produce PCA-label. The proposed methods have been applied to synthetic data, comprising 41 realisations of white-noise, pink-noise (stochastic), Logistic-map at growth-rate 4 and Lorentz-system (non-stochastic), as proof-of-concept. Proposed algorithm is applied on astronomical data: 12 temporal-classes of timeseries of black hole GRS 1915+105, obtained from RXTE satellite with average length 25000. For a given timeseries, if SVD-label and PCA-label concur, then the label is retained; else deemed "Uncertain". Comparison of obtained results with those in literature are presented. It's found that out of 12 temporal classes of GRS 1915+105, concurrence between SVD-label and PCA-label is obtained on 11 of them. | 翻訳日:2023-07-18 18:17:33 公開日:2023-07-15 |
# 量子力学とその雑音効果 Quantum metrology and its noisy effects ( http://arxiv.org/abs/2307.07701v1 ) ライセンス: Link先を確認 | Lin Jiao, Si-Yuan Bai, Wei Wu, Jun-Hong An | (参考訳) 量子距離論は、量子エンタングルメントやスクイーズングなどの量子的特徴を資源として利用することにより、古典的に達成可能な限界よりも高い精度の測定を物理量に物理的に実現することを追求している。
次世代の周波数標準、磁力計、レーダー、ナビゲーションの開発に応用できる可能性がある。
しかし、量子世界のユビキタスなデコヒーレンスは量子資源を分解し、その精度を古典的極限(ノイズ量子メトロロジーのno-go定理と呼ばれ、その応用を著しく阻害する)に戻す。
そのため,近年,現実的な雑音環境下での量子気象学の性能の実現が注目されている。
我々は、量子メソロジーの原理、分類、応用について概観する。
感度を高めるために量子優位をもたらす様々な量子リソースに、特に注意が払われるだろう。
次に,ノイズ誘起デコヒーレンス状態における雑音量子メトロロジーのno-go定理とそのアクティブ制御について述べる。 Quantum metrology pursues the physical realization of higher-precision measurements to physical quantities than the classically achievable limit by exploiting quantum features, such as quantum entanglement and squeezing, as resources. It has potential applications in developing next-generation frequency standards, magnetometers, radar, and navigation. However, the ubiquitous decoherence in the quantum world degrades the quantum resources and forces the precision back to or even worse than the classical limit, which is called the no-go theorem of noisy quantum metrology and greatly hinders its applications. Therefore, how to realize the promised performance of quantum metrology in realistic noisy situations attracts much attention in recent years. We will review the principle, categories, and applications of quantum metrology. Special attention will be paid to different quantum resources that can bring quantum superiority in enhancing the sensitivity. Then, we will introduce the no-go theorem of noisy quantum metrology and its active control under different kinds of noise-induced decoherence situations. | 翻訳日:2023-07-18 18:17:02 公開日:2023-07-15 |
# NeurASP: ニューラルネットワークを解答セットプログラミングに適用する NeurASP: Embracing Neural Networks into Answer Set Programming ( http://arxiv.org/abs/2307.07700v1 ) ライセンス: Link先を確認 | Zhun Yang, Adam Ishay, Joohyung Lee | (参考訳) 本稿では,ニューラルネットワークを用いた解答集合プログラムの簡易拡張であるneuraspを提案する。
ニューラルネットワーク出力を応答集合プログラムの原子事実上の確率分布として扱うことにより、NeurASPはサブシンボリックおよびシンボリック計算を統合するためのシンプルで効果的な方法を提供する。
我々は,NeurASPが事前学習したニューラルネットワークを記号計算に活用する方法と,応答集合プログラミングにシンボリック推論を適用してニューラルネットワークの知覚結果を改善する方法を示す。
また、NeurASPは、ASPルールを使用してトレーニングすることで、ニューラルネットワークをデータから暗黙の相関から学習するだけでなく、ルールによって表現される明示的な複雑なセマンティック制約から学習することが可能になる。 We present NeurASP, a simple extension of answer set programs by embracing neural networks. By treating the neural network output as the probability distribution over atomic facts in answer set programs, NeurASP provides a simple and effective way to integrate sub-symbolic and symbolic computation. We demonstrate how NeurASP can make use of a pre-trained neural network in symbolic computation and how it can improve the neural network's perception result by applying symbolic reasoning in answer set programming. Also, NeurASP can be used to train a neural network better by training with ASP rules so that a neural network not only learns from implicit correlations from the data but also from the explicit complex semantic constraints expressed by the rules. | 翻訳日:2023-07-18 18:16:47 公開日:2023-07-15 |
# 局所微分的プライベート機構に対する反復ベイズ更新の有用性について On the Utility Gain of Iterative Bayesian Update for Locally Differentially Private Mechanisms ( http://arxiv.org/abs/2307.07744v1 ) ライセンス: Link先を確認 | H\'eber H. Arcolezi and Selene Cerna and Catuscia Palamidessi | (参考訳) 本稿では, 局所微分プライベート (LDP) 機構を使用せず, 個別分布推定にイテレーティブベイズ更新 (IBU) を用いる場合の有用性について検討する。
IBU と Matrix Inversion (MI) の性能を比較し,1回のデータ収集用に設計された 7 つの LDP 機構と,複数のデータ収集用に設計された 7 つの LDP 機構 (例えば RAPPOR) を比較した。
また,本研究の範囲を広げるために,実世界のデータと実世界のデータを用いて,実用性指標,ユーザ数n,ドメインサイズk,プライバシパラメータ {\epsilon} を変化させた。
以上の結果から, IBUは, 追加のプライバシコストを伴わずに, 異なるシナリオにおけるLPPメカニズムの有用性を向上させる上で有用な後処理ツールである可能性が示唆された。
例えば、我々の実験では、IBUはMIよりも優れたユーティリティを提供し、特に高いプライバシー体制(例えば、 {\epsilon} が小さいとき)で実現可能であることが示されています。
本稿は,IBUと既存のLPP機構を併用して,より正確かつプライバシー保護的なデータ分析を行うための知見を提供する。
最後に14のldpメカニズムをすべて、最先端のマルチfreq-ldpy pythonパッケージ(https://pypi.org/project/multi-freq-ldpy/)に実装しました。 This paper investigates the utility gain of using Iterative Bayesian Update (IBU) for private discrete distribution estimation using data obfuscated with Locally Differentially Private (LDP) mechanisms. We compare the performance of IBU to Matrix Inversion (MI), a standard estimation technique, for seven LDP mechanisms designed for one-time data collection and for other seven LDP mechanisms designed for multiple data collections (e.g., RAPPOR). To broaden the scope of our study, we also varied the utility metric, the number of users n, the domain size k, and the privacy parameter {\epsilon}, using both synthetic and real-world data. Our results suggest that IBU can be a useful post-processing tool for improving the utility of LDP mechanisms in different scenarios without any additional privacy cost. For instance, our experiments show that IBU can provide better utility than MI, especially in high privacy regimes (i.e., when {\epsilon} is small). Our paper provides insights for practitioners to use IBU in conjunction with existing LDP mechanisms for more accurate and privacy-preserving data analysis. Finally, we implemented IBU for all fourteen LDP mechanisms into the state-of-the-art multi-freq-ldpy Python package (https://pypi.org/project/multi-freq-ldpy/) and open-sourced all our code used for the experiments as tutorials. | 翻訳日:2023-07-18 18:09:11 公開日:2023-07-15 |
# SINC:視覚言語タスクのための自己監督型インコンテキスト学習 SINC: Self-Supervised In-Context Learning for Vision-Language Tasks ( http://arxiv.org/abs/2307.07742v1 ) ライセンス: Link先を確認 | Yi-Syuan Chen, Yun-Zhu Song, Cheng Yu Yeo, Bei Liu, Jianlong Fu, Hong-Han Shuai | (参考訳) 大規模な事前学習型トランスフォーマーは、コンテキスト内学習に興味深い能力を示す。
勾配の更新がなければ、これらのモデルは入力に表示されたデモから新しい予測器を迅速に構築できる。
最近の研究は、すでにコンテキスト内予測ができる大きな言語モデルに視覚情報を組み込むことで、視覚言語領域におけるこの能力を促進する。
しかし、これらの手法はテンプレートの感度や幻覚といった言語領域の問題を継承する可能性がある。
また、これらの言語モデルの規模は計算に多大な需要をもたらし、これらのモデルを学習し、資源集約的に運用する。
この目的のために、我々は「大規模な言語モデルに制約されることなく、どのように一般モデルのコンテキスト内学習を可能にするのか?
そこで本研究では,自己教師あり学習(self-supervised in-context learning:sinc)という,簡潔で汎用的なフレームワークを提案する。
学習したモデルは、オンザフライでコンテキスト内予測を行うために下流タスクに転送することができる。
広汎な実験により、SINCは数ショット設定で様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
さらに、SINCの設計は、異なるタスクにまたがるインコンテキスト学習の利点を調べるのに役立ち、その分析により、視覚言語領域におけるインコンテキスト学習の出現に必要な要素をさらに明らかにする。 Large Pre-trained Transformers exhibit an intriguing capacity for in-context learning. Without gradient updates, these models can rapidly construct new predictors from demonstrations presented in the inputs. Recent works promote this ability in the vision-language domain by incorporating visual information into large language models that can already make in-context predictions. However, these methods could inherit issues in the language domain, such as template sensitivity and hallucination. Also, the scale of these language models raises a significant demand for computations, making learning and operating these models resource-intensive. To this end, we raise a question: ``How can we enable in-context learning for general models without being constrained on large language models?". To answer it, we propose a succinct and general framework, Self-supervised IN-Context learning (SINC), that introduces a meta-model to learn on self-supervised prompts consisting of tailored demonstrations. The learned models can be transferred to downstream tasks for making in-context predictions on-the-fly. Extensive experiments show that SINC outperforms gradient-based methods in various vision-language tasks under few-shot settings. Furthermore, the designs of SINC help us investigate the benefits of in-context learning across different tasks, and the analysis further reveals the essential components for the emergence of in-context learning in the vision-language domain. | 翻訳日:2023-07-18 18:08:41 公開日:2023-07-15 |
# CNN-LSTMモデルを用いたペルシャツイートの政治的感性分析 Political Sentiment Analysis of Persian Tweets Using CNN-LSTM Model ( http://arxiv.org/abs/2307.07740v1 ) ライセンス: Link先を確認 | Mohammad Dehghani, Zahra Yazdanparast | (参考訳) 感情分析は、人々の感情や様々なトピックに関する意見を特定し分類するプロセスである。
Twitterの感情分析は、近年ますます人気が高まっている。
本稿では,ペルシャの政治ツイートの感情分析のために,いくつかの機械学習とディープラーニングモデルを提案する。
分析は単語表現のためのbag of wordsとparsbertを用いて行った。
我々は、ツイートの極性を分類するために、Gaussian Naive Bayes、Gradient Boosting、Logistic Regression、Decision Trees、Random Forests、CNNとLSTMを組み合わせた。
本研究では,ParsBERT埋め込みによるディープラーニングが機械学習よりも優れていることを示す。
CNN-LSTMモデルは、第1のデータセットでは99%、第2のデータセットでは7つのクラスでは71%という高い分類精度を持っていた。
ペルシャの複雑さのため、このレベルの効率を達成するのは困難であった。 Sentiment analysis is the process of identifying and categorizing people's emotions or opinions regarding various topics. The analysis of Twitter sentiment has become an increasingly popular topic in recent years. In this paper, we present several machine learning and a deep learning model to analysis sentiment of Persian political tweets. Our analysis was conducted using Bag of Words and ParsBERT for word representation. We applied Gaussian Naive Bayes, Gradient Boosting, Logistic Regression, Decision Trees, Random Forests, as well as a combination of CNN and LSTM to classify the polarities of tweets. The results of this study indicate that deep learning with ParsBERT embedding performs better than machine learning. The CNN-LSTM model had the highest classification accuracy with 89 percent on the first dataset with three classes and 71 percent on the second dataset with seven classes. Due to the complexity of Persian, it was a difficult task to achieve this level of efficiency. | 翻訳日:2023-07-18 18:08:18 公開日:2023-07-15 |
# 遺伝子制御ネットワークにおける負の確率 Negative probabilities in Gene Regulatory Networks ( http://arxiv.org/abs/2307.07738v1 ) ライセンス: Link先を確認 | Anqi Dong, Tryphon T. Georgiou and Allen Tannenbaum | (参考訳) 我々は、既知の表現に基づいて、遺伝子間の手話不定の共発現を識別するための自然な枠組みを導入し、それぞれの相関のサインを与える。
具体的には、遺伝子間の親和性(すなわち、遺伝子制御ネットワークの接続性)と、それらがそれぞれのタンパク質生産の共発現を促進/阻害するかどうかに関する知識を与えられたとき、観測されたタンパク質レベルの定常分布を説明できる速度を求める。
我々は彼らの ``promotion vs. をカプセル化する。
符号不定確率遷移行列における \ inhibition' の函数--行和が 1 に等しいが、それ以外は符号不定の行列である。
このような相互作用ネットワークの表現と、タンパク質の調節における無定な貢献を構築する目的は、様々なリンクの構造と重要性を定量化し、それがネットワークの幾何学にどのように影響するかを説明し、特定の遺伝子の制御機能の重要さを強調することである。
我々は,すべての関連する幾何学的性質が容易に導出できる凸最適化問題に対する解として,相互作用(符号不定値)遷移行列を見つける問題を提起した。 We introduce a natural framework to identify sign-indefinite co-expressions between genes based on the known expressions and given the sign of their respective correlations. Specifically, given information concerning the affinity among genes (i.e., connectivity in the gene regulatory network) and knowledge whether they promote/inhibit co-expression of the respective protein production, we seek rates that may explain the observed stationary distributions at the level of proteins. We propose to encapsulate their ``promotion vs.\ inhibition'' functionality in a sign-indefinite probability transition matrix--a matrix whose row-sums equal to one, but is otherwise sign indefinite. The purpose of constructing such a representation for the interaction network with sign-indefinite contributions in protein regulation, is to quantify the structure and significance of various links, and to explain how these may affect the geometry of the network, highlighting the significance of the regulatory functions of certain genes. We cast the problem of finding the interaction (sign-indefinite) transition matrix as a solution to a convex optimization problem from which all the relevant geometric properties may be easily derived. | 翻訳日:2023-07-18 18:08:01 公開日:2023-07-15 |
# 構造化支持ベクトルマシンのニア線形時間アルゴリズム A Nearly-Linear Time Algorithm for Structured Support Vector Machines ( http://arxiv.org/abs/2307.07735v1 ) ライセンス: Link先を確認 | Yuzhou Gu, Zhao Song, Lichen Zhang | (参考訳) 二次プログラミングは凸最適化の分野における根本的な問題である。
多くの実用的なタスクは二次プログラミング(例えば、サポートベクトルマシン(SVM))として定式化することができる。
リニアsvmは、ディープラーニングメソッドが主流になる前の過去30年間、マシンラーニングで最もポピュラーなツールの1つです。
一般に、二次プログラムは入力サイズ$\Theta(n^2)$($n$は変数の数である)なので、解くのに$\Omega(n^2)$時間を要する。
それでも、SVMから来る二次プログラムは入力サイズ$O(n)$を持ち、ほぼ線形時間アルゴリズムを設計することができる。
SVMの2つの重要なクラスは、低ランクのカーネル因数分解と低ツリー幅プログラムを認めるプログラムである。
近年,低木幅凸最適化への関心が高まっている(例えば,線形プログラミング [dong, lee and ye 2021] や半定義型プログラミング [gu and song 2022] など)。
したがって、これらの優れた構造を持つ二次プログラムに対して、ほぼ線形時間アルゴリズムが存在するかどうかという重要な疑問がある。
本研究では,低次因子分解や低木幅で二次計画を解くための最初の近似時間アルゴリズムと,少数の線形制約を提案する。
その結果,低ツリー幅および低ランクSVMに対するほぼ線形時間アルゴリズムが得られた。 Quadratic programming is a fundamental problem in the field of convex optimization. Many practical tasks can be formulated as quadratic programming, for example, the support vector machine (SVM). Linear SVM is one of the most popular tools over the last three decades in machine learning before deep learning method dominating. In general, a quadratic program has input size $\Theta(n^2)$ (where $n$ is the number of variables), thus takes $\Omega(n^2)$ time to solve. Nevertheless, quadratic programs coming from SVMs has input size $O(n)$, allowing the possibility of designing nearly-linear time algorithms. Two important classes of SVMs are programs admitting low-rank kernel factorizations and low-treewidth programs. Low-treewidth convex optimization has gained increasing interest in the past few years (e.g.~linear programming [Dong, Lee and Ye 2021] and semidefinite programming [Gu and Song 2022]). Therefore, an important open question is whether there exist nearly-linear time algorithms for quadratic programs with these nice structures. In this work, we provide the first nearly-linear time algorithm for solving quadratic programming with low-rank factorization or low-treewidth, and a small number of linear constraints. Our results imply nearly-linear time algorithms for low-treewidth or low-rank SVMs. | 翻訳日:2023-07-18 18:07:40 公開日:2023-07-15 |
# Ravenのプログレッシブマトリックス問題の解法における概念整合則の抽象化 Abstracting Concept-Changing Rules for Solving Raven's Progressive Matrix Problems ( http://arxiv.org/abs/2307.07734v1 ) ライセンス: Link先を確認 | Fan Shi, Bin Li, Xiangyang Xue | (参考訳) 人間の知性における抽象的な視覚的推論能力は、新しい環境における基礎となるルールの発見に役立つ。
Raven's Progressive Matrix (RPM) は、候補者の中から選択することで、機械知能においてそのような能力を実現する古典的なテストである。
近年の研究では、RPMの解法はルールの深い理解を促進することが示唆されている。
しかし、既存の生成的解法は、補助的な監督なしにグローバルな概念変更規則を発見できない(例えば、規則アノテーションや候補集合の邪魔者)。
そこで本研究では,解釈可能な概念を学習し,潜在空間における概念変更ルールを解析することにより,概念変更ルールABstraction(CRAB)の潜時変数モデルを提案する。
反復学習プロセスでは、各コンセプトのデータセットで共有されるグローバルルールを自動的に抽象化し、グローバルルールの学習可能な事前知識を形成することができる。
CRABは、任意の位置答え生成タスクにおいて補助的な監督なしに訓練されたベースラインを上回り、補助的な監督によって訓練されたモデルと比較されたモデルと同等かつ高い精度で達成する。
最後に,概念学習,回答選択,グローバルルール抽象化におけるCRABの解釈可能性を示す実験を行った。 The abstract visual reasoning ability in human intelligence benefits discovering underlying rules in the novel environment. Raven's Progressive Matrix (RPM) is a classic test to realize such ability in machine intelligence by selecting from candidates. Recent studies suggest that solving RPM in an answer-generation way boosts a more in-depth understanding of rules. However, existing generative solvers cannot discover the global concept-changing rules without auxiliary supervision (e.g., rule annotations and distractors in candidate sets). To this end, we propose a deep latent variable model for Concept-changing Rule ABstraction (CRAB) by learning interpretable concepts and parsing concept-changing rules in the latent space. With the iterative learning process, CRAB can automatically abstract global rules shared on the dataset on each concept and form the learnable prior knowledge of global rules. CRAB outperforms the baselines trained without auxiliary supervision in the arbitrary-position answer generation task and achieves comparable and even higher accuracy than the compared models trained with auxiliary supervision. Finally, we conduct experiments to illustrate the interpretability of CRAB in concept learning, answer selection, and global rule abstraction. | 翻訳日:2023-07-18 18:07:17 公開日:2023-07-15 |
# ランドマーク定位のための深層学習によるエビの形態計測と画像からの重量推定 Prawn Morphometrics and Weight Estimation from Images using Deep Learning for Landmark Localization ( http://arxiv.org/abs/2307.07732v1 ) ライセンス: Link先を確認 | Alzayat Saleh, Md Mehedi Hasan, Herman W Raadsma, Mehar S Khatkar, Dean R Jerry, and Mostafa Rahimi Azghadi | (参考訳) 正確な重量推定と形態計測分析は、摂餌の最適化、収穫収量予測、選択的繁殖のための望ましい形質の同定、採食過程、生産動物の健康状態の監視に有用である。
しかしながら、産業規模やリアルタイムにおける従来の手動アプローチによる表現型データの収集は、時間がかかり、労働集約的であり、エラーを起こしやすい。
深層学習(DL)を用いた個体のデジタルイメージングとその後の予測モデルの訓練は、水生生物から表現型データを迅速かつ正確に取得する可能性がある。
本研究では,黒トラエビ(penaeus monodon)をモデル甲殻類として,重量推定と形態計測の自動化に新しいdl法を適用した。
dlアプローチは、クロネッカー製品操作を用いて、低レベルと高レベルの機能を効率的に結合する特徴抽出モジュールと、これらの特徴を用いてエビの体の重要な形態的点(ランドマーク)の座標を予測するランドマークローカライズモジュールの2つの主成分から構成される。
これらのランドマークを抽出した後、完全に接続されたネットワークを用いて抽出されたランドマークに基づいて重量回帰モジュールを用いて重量を推定した。
形態計測解析では,検出されたランドマークを用いて5つの重要なエビ形質を抽出した。
主成分分析 (principal component analysis, pca) はランドマーク由来の距離の同定にも用いられ, 体長, 幅などの形状特徴と高い相関が認められた。
オーストラリアで採集されたクロタイガーエビ(penaeus monodon)の8164画像の大規模データセットについて検討した。
実験の結果,新しいDL手法は,精度,堅牢性,効率の点で既存のDL手法よりも優れていた。 Accurate weight estimation and morphometric analyses are useful in aquaculture for optimizing feeding, predicting harvest yields, identifying desirable traits for selective breeding, grading processes, and monitoring the health status of production animals. However, the collection of phenotypic data through traditional manual approaches at industrial scales and in real-time is time-consuming, labour-intensive, and prone to errors. Digital imaging of individuals and subsequent training of prediction models using Deep Learning (DL) has the potential to rapidly and accurately acquire phenotypic data from aquaculture species. In this study, we applied a novel DL approach to automate weight estimation and morphometric analysis using the black tiger prawn (Penaeus monodon) as a model crustacean. The DL approach comprises two main components: a feature extraction module that efficiently combines low-level and high-level features using the Kronecker product operation; followed by a landmark localization module that then uses these features to predict the coordinates of key morphological points (landmarks) on the prawn body. Once these landmarks were extracted, weight was estimated using a weight regression module based on the extracted landmarks using a fully connected network. For morphometric analyses, we utilized the detected landmarks to derive five important prawn traits. Principal Component Analysis (PCA) was also used to identify landmark-derived distances, which were found to be highly correlated with shape features such as body length, and width. We evaluated our approach on a large dataset of 8164 images of the Black tiger prawn (Penaeus monodon) collected from Australian farms. Our experimental results demonstrate that the novel DL approach outperforms existing DL methods in terms of accuracy, robustness, and efficiency. | 翻訳日:2023-07-18 18:06:54 公開日:2023-07-15 |
# GISデータ利用のための高さデータによるNeRFの改善 Improving NeRF with Height Data for Utilization of GIS Data ( http://arxiv.org/abs/2307.07729v1 ) ライセンス: Link先を確認 | Hinata Aoki and Takao Yamanaka | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元シーンの表現に関連する様々なタスクに適用されている。
NeRFに基づくほとんどの研究は小さな物体に焦点を当てているが、いくつかの研究は大規模なシーンを再構築しようと試みてきた。
本稿では,大規模シーンへのNeRFの適用について,GIS(Geographic Information System)から得られる高さデータを有効に活用するために,NeRFに基づく手法を提案する。
この目的のために、シーン空間は複数のオブジェクトと、高さデータを使用してそれらを別々のニューラルネットワークで表現する背景に分割された。
また,高さデータを用いた適応サンプリング手法も提案した。
その結果、画像レンダリングの精度が向上し、トレーニング速度が向上した。 Neural Radiance Fields (NeRF) has been applied to various tasks related to representations of 3D scenes. Most studies based on NeRF have focused on a small object, while a few studies have tried to reconstruct large-scale scenes although these methods tend to require large computational cost. For the application of NeRF to large-scale scenes, a method based on NeRF is proposed in this paper to effectively use height data which can be obtained from GIS (Geographic Information System). For this purpose, the scene space was divided into multiple objects and a background using the height data to represent them with separate neural networks. In addition, an adaptive sampling method is also proposed by using the height data. As a result, the accuracy of image rendering was improved with faster training speed. | 翻訳日:2023-07-18 18:06:24 公開日:2023-07-15 |
# 最適ニューラルネットワークを目指して:ハイパーパラメータ選択におけるサンプル分割の役割 Towards Optimal Neural Networks: the Role of Sample Splitting in Hyperparameter Selection ( http://arxiv.org/abs/2307.07726v1 ) ライセンス: Link先を確認 | Shijin Gong and Xinyu Zhang | (参考訳) 人工ニューラルネットワークが様々な領域で例外的な実践的成功をおさめたとき、その近似力、統計特性、一般化性能などの理論的特性の研究は大きな進歩を遂げた。
本稿では,ニューラルネットワークモデル構築における一般的な実践の基礎となる謎であるサンプル分割を発見し,ニューラルネットワークの有効性を理解するための新しい理論を構築する。
本理論は,標本分割から得られる最適ハイパーパラメータが,予測リスクを漸近的に最小化するニューラルネットワークモデルを可能にすることを実証する。
異なるアプリケーションシナリオとネットワークアーキテクチャにわたる広範な実験を行い、その結果が我々の理論の有効性を示している。 When artificial neural networks have demonstrated exceptional practical success in a variety of domains, investigations into their theoretical characteristics, such as their approximation power, statistical properties, and generalization performance, have made significant strides. In this paper, we construct a novel theory for understanding the effectiveness of neural networks by discovering the mystery underlying a common practice during neural network model construction: sample splitting. Our theory demonstrates that, the optimal hyperparameters derived from sample splitting can enable a neural network model that asymptotically minimizes the prediction risk. We conduct extensive experiments across different application scenarios and network architectures, and the results manifest our theory's effectiveness. | 翻訳日:2023-07-18 18:06:14 公開日:2023-07-15 |
# 周辺予測パディングを用いた畳み込みニューラルネットワークの翻訳不変性の改善 Improving Translation Invariance in Convolutional Neural Networks with Peripheral Prediction Padding ( http://arxiv.org/abs/2307.07725v1 ) ライセンス: Link先を確認 | Kensuke Mukai and Takao Yamanaka | (参考訳) ゼロパディングは畳み込みニューラルネットワークにおいて、各層で特徴マップのサイズが小さくなるのを防ぐためにしばしば使用される。
しかし、最近の研究では、ゼロパディングは絶対位置情報のエンコーディングを促進することが示されており、いくつかのタスクのパフォーマンスに悪影響を及ぼす可能性がある。
本研究では, 周辺予測パディング法 (PP-Pad) と呼ばれる新しいパディング手法を提案し, ゼロパディングではなく, 各タスクに適したパディング値のエンドツーエンドトレーニングを可能にする。
さらに、モデルの翻訳不変性を定量的に評価する新しい指標を示す。
これらの指標を用いて評価することにより,提案手法が従来の意味分節処理法よりも高い精度と翻訳不変性を達成したことを確認した。 Zero padding is often used in convolutional neural networks to prevent the feature map size from decreasing with each layer. However, recent studies have shown that zero padding promotes encoding of absolute positional information, which may adversely affect the performance of some tasks. In this work, a novel padding method called Peripheral Prediction Padding (PP-Pad) method is proposed, which enables end-to-end training of padding values suitable for each task instead of zero padding. Moreover, novel metrics to quantitatively evaluate the translation invariance of the model are presented. By evaluating with these metrics, it was confirmed that the proposed method achieved higher accuracy and translation invariance than the previous methods in a semantic segmentation task. | 翻訳日:2023-07-18 18:06:02 公開日:2023-07-15 |
# SoccerKDNet:サッカービデオにおける行動認識のための知識蒸留フレームワーク SoccerKDNet: A Knowledge Distillation Framework for Action Recognition in Soccer Videos ( http://arxiv.org/abs/2307.07768v1 ) ライセンス: Link先を確認 | Sarosij Bose, Saikat Sarkar, Amlan Chakrabarti | (参考訳) サッカーのビデオからプレイヤーのアクションを分類することは難しい問題であり、スポーツ分析では近年ますます重要になっている。
最先端の手法の多くは、高度に複雑なオフラインネットワークを使っているため、そのようなモデルをリソース制約のあるシナリオでデプロイするのは困難である。
本稿では,kinetics400データセット上で事前学習したエンド・ツー・エンドの知識蒸留に基づく転送学習ネットワークを提案する。
また,サッカーをプレイする選手の4つの異なるクラスからなる,448のビデオを含む新しいデータセットである soccerdb1 についても紹介する。
さらに,各ネットワークの予測の有効範囲を線形に評価する一意な損失パラメータを導入する。
最後に、様々な変化したハイパーパラメータを用いて、徹底的な性能調査を行う。
また、新しいサッカーDB1データセットの最初の分類結果をベンチマークし、67.20%の検証精度を得た。
先行技術を大幅に上回るだけでなく、我々のモデルは新しいデータセットにも容易に一般化できる。
データセットは、https://bit.ly/soccerdb1で公開されている。 Classifying player actions from soccer videos is a challenging problem, which has become increasingly important in sports analytics over the years. Most state-of-the-art methods employ highly complex offline networks, which makes it difficult to deploy such models in resource constrained scenarios. Here, in this paper we propose a novel end-to-end knowledge distillation based transfer learning network pre-trained on the Kinetics400 dataset and then perform extensive analysis on the learned framework by introducing a unique loss parameterization. We also introduce a new dataset named SoccerDB1 containing 448 videos and consisting of 4 diverse classes each of players playing soccer. Furthermore, we introduce an unique loss parameter that help us linearly weigh the extent to which the predictions of each network are utilized. Finally, we also perform a thorough performance study using various changed hyperparameters. We also benchmark the first classification results on the new SoccerDB1 dataset obtaining 67.20% validation accuracy. Apart from outperforming prior arts significantly, our model also generalizes to new datasets easily. The dataset has been made publicly available at: https://bit.ly/soccerdb1 | 翻訳日:2023-07-18 18:00:16 公開日:2023-07-15 |
# 分散シフトの動的制御による超電導量子ビットの分散読み出しの促進:実験と理論 Enhancing Dispersive Readout of Superconducting Qubits Through Dynamic Control of the Dispersive Shift: Experiment and Theory ( http://arxiv.org/abs/2307.07765v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Swiadek, Ross Shillito, Paul Magnard, Ants Remm, Christoph Hellings, Nathan Lacroix, Quentin Ficheux, Dante Colao Zanuz, Graham J. Norris, Alexandre Blais, Sebastian Krinner and Andreas Wallraff | (参考訳) 幅広い量子コンピューティングアルゴリズムとプロトコルの性能は、採用されている量子ビット読み出しの忠実さと速度に大きく依存する。
例えば、中回路、リアルタイム、qubit初期化、絡み合い生成、テレポーテーション、そしておそらく最も重要な量子誤り訂正のような計測に基づくフィードバックの恩恵を受けるゲートシーケンスがある。
顕著で広く使われている読み出し方式は、大きな帯域幅の読み出し共振器に強く結合された超伝導量子ビットの分散相互作用に基づいており、しばしば専用または共有のパーセルフィルタと組み合わせられる。
量子ビット共振器のデチューニングを動的に減らし、分散シフトを増大させることで、100 ns 統合時間で 0.25\,\% の2状態読み出し誤差を極端に証明する。
読み出しモードのライン幅を2倍にすることで、読み出しモードの信号-雑音比をほぼ4倍にし、読み出し共振器と専用パーセルフィルタのハイブリッド化を考慮して定量化する。
実験データと理論モデルとの間には優れた一致がある。
提案した結果は,高忠実で高速な中間回路計測に依存する新しいアルゴリズムやプロトコルの性能をさらに向上させることが期待される。 The performance of a wide range of quantum computing algorithms and protocols depends critically on the fidelity and speed of the employed qubit readout. Examples include gate sequences benefiting from mid-circuit, real-time, measurement-based feedback, such as qubit initialization, entanglement generation, teleportation, and perhaps most importantly, quantum error correction. A prominent and widely-used readout approach is based on the dispersive interaction of a superconducting qubit strongly coupled to a large-bandwidth readout resonator, frequently combined with a dedicated or shared Purcell filter protecting qubits from decay. By dynamically reducing the qubit-resonator detuning and thus increasing the dispersive shift, we demonstrate a beyond-state-of-the-art two-state-readout error of only $0.25\,\%$ in 100 ns integration time. Maintaining low readout-drive strength, we nearly quadruple the signal-to-noise ratio of the readout by doubling the readout mode linewidth, which we quantify by considering the hybridization of the readout-resonator and its dedicated Purcell-filter. We find excellent agreement between our experimental data and our theoretical model. The presented results are expected to further boost the performance of new and existing algorithms and protocols critically depending on high-fidelity, fast, mid-circuit measurements. | 翻訳日:2023-07-18 17:59:57 公開日:2023-07-15 |
# 反ファクトパスを持つ説明可能なAI Explainable AI with counterfactual paths ( http://arxiv.org/abs/2307.07764v1 ) ライセンス: Link先を確認 | Bastian Pfeifer, Mateusz Krzyzinski, Hubert Baniecki, Anna Saranti, Andreas Holzinger, Przemyslaw Biecek | (参考訳) 説明可能なai(xai)は、マシンラーニングにおけるますます重要な研究分野であり、基本的にはブラックボックスモデルを透明かつ解釈可能にすることを目的としている。
本稿では,条件付き順列によって生成された逆実効経路を用いた新しいXAI手法を提案する。
提案手法は, 異なる結果をもたらす可能性のある経路を識別することで, 反事実的説明を提供する。
提案手法は知識グラフの反実的経路に基づく説明を生成するのに特に適している。
ナレッジグラフの入力データに対する仮定的な変化を調べることで、モデルの振る舞いを体系的に検証し、モデルの予測に最も重要な特徴の特徴や組み合わせを調べることができる。
我々のアプローチは、従来の特徴重み付け手法よりもモデルの振る舞いをより直感的で解釈可能な説明を提供し、モデルのバイアスを特定し緩和するのに役立ちます。 Explainable AI (XAI) is an increasingly important area of research in machine learning, which in principle aims to make black-box models transparent and interpretable. In this paper, we propose a novel approach to XAI that uses counterfactual paths generated by conditional permutations. Our method provides counterfactual explanations by identifying alternative paths that could have led to different outcomes. The proposed method is particularly suitable for generating explanations based on counterfactual paths in knowledge graphs. By examining hypothetical changes to the input data in the knowledge graph, we can systematically validate the behaviour of the model and examine the features or combination of features that are most important to the model's predictions. Our approach provides a more intuitive and interpretable explanation for the model's behaviour than traditional feature weighting methods and can help identify and mitigate biases in the model. | 翻訳日:2023-07-18 17:59:31 公開日:2023-07-15 |
# 移動体エージェントの幾何学的特徴に基づく高結合LiDAR-Visual SLAM Tightly-Coupled LiDAR-Visual SLAM Based on Geometric Features for Mobile Agents ( http://arxiv.org/abs/2307.07763v1 ) ライセンス: Link先を確認 | Ke Cao, Ruiping Liu, Ze Wang, Kunyu Peng, Jiaming Zhang, Junwei Zheng, Zhifeng Teng, Kailun Yang, Rainer Stiefelhagen | (参考訳) この移動ロボットはSLAM(Simultaneous Localization and Mapping)を利用して、複雑で未知の環境で自律的なナビゲーションとタスク実行を提供する。
しかし,照明条件の悪さや動きのぼかしなど,動的かつ困難な状況のため,移動ロボット専用のアルゴリズムを開発することは困難である。
本稿では2つのサブシステム(LiDARとモノクロ視覚SLAM)と融合フレームワークを含む幾何学的特徴に基づく密結合LiDAR視覚SLAMを提案する。
fusion frameworkはマルチモーダル幾何学的特徴の深さと意味を関連付け、視覚的ラインランドマークを補完し、バンドル調整(ba)における方向最適化を追加する。
これはさらに視覚のオドメトリーを制約する。
一方、視覚サブシステムによって検出された全線分は、幾何学的特徴の局所的な計算のみを行うLiDARサブシステムの制限を克服する。
線形特徴点の方向を調整し、異常値をフィルターアウトすることで、より正確なオドメトリシステムを実現する。
最後に,視覚サブシステム追跡が失敗する間,lidarサブシステムの出力を補完的軌道としてシステムに提供し,サブシステムの動作を検出するモジュールを用いる。
各種屋内・屋外シナリオにまたがる地上ロボットから収集した公共データセットM2DGRの評価結果は,現状のマルチモーダル手法と比較して,より正確でロバストなポーズ推定を実現することを示す。 The mobile robot relies on SLAM (Simultaneous Localization and Mapping) to provide autonomous navigation and task execution in complex and unknown environments. However, it is hard to develop a dedicated algorithm for mobile robots due to dynamic and challenging situations, such as poor lighting conditions and motion blur. To tackle this issue, we propose a tightly-coupled LiDAR-visual SLAM based on geometric features, which includes two sub-systems (LiDAR and monocular visual SLAM) and a fusion framework. The fusion framework associates the depth and semantics of the multi-modal geometric features to complement the visual line landmarks and to add direction optimization in Bundle Adjustment (BA). This further constrains visual odometry. On the other hand, the entire line segment detected by the visual subsystem overcomes the limitation of the LiDAR subsystem, which can only perform the local calculation for geometric features. It adjusts the direction of linear feature points and filters out outliers, leading to a higher accurate odometry system. Finally, we employ a module to detect the subsystem's operation, providing the LiDAR subsystem's output as a complementary trajectory to our system while visual subsystem tracking fails. The evaluation results on the public dataset M2DGR, gathered from ground robots across various indoor and outdoor scenarios, show that our system achieves more accurate and robust pose estimation compared to current state-of-the-art multi-modal methods. | 翻訳日:2023-07-18 17:59:18 公開日:2023-07-15 |
# 量子エンハンスドメトロジーとネットワーク状態 Quantum-enhanced metrology with network states ( http://arxiv.org/abs/2307.07758v1 ) ライセンス: Link先を確認 | Yuxiang Yang, Benjamin Yadin, Zhen-Peng Xu | (参考訳) 量子相関により、ネットワーク内の量子センサーは、クロック同期や参照フレームアライメントといった分散センシングタスクにおいて、従来のセンサーよりも上位に分類する可能性を示している。
一方、この分析は単純で理想的なネットワークに対して行われたが、ネットワーク状態の概念によって得られた実用的な量子ネットワーク内で共有される相関は、はるかに複雑である。
ここでは、量子ネットワーク状態を用いてグローバルパラメータを推定する性能を制限する一般的な境界を証明し、量子優位性を達成するために真のマルチパーティ・エンタングルメントの必要性を確立する。
バウンドはネットワークの絡み合い証人としても機能し、浅い回路によって生成される状態へと一般化することができる。
さらに、我々は、局所的なネットワーク状態がハイゼンベルク限界に達することを禁止しているが、一度成功すれば、量子メトロジーの究極の限界に達する確率的プロトコルを設計する。
我々の研究は量子ネットワークにおける量子力学の限界と可能性の両方を確立する。 Armed with quantum correlations, quantum sensors in a network have shown the potential to outclass their classical counterparts in distributed sensing tasks such as clock synchronization and reference frame alignment. On the other hand, this analysis was done for simple and idealized networks, whereas the correlation shared within a practical quantum network, captured by the notion of network states, is much more complex. Here, we prove a general bound that limits the performance of using quantum network states to estimate a global parameter, establishing the necessity of genuine multipartite entanglement for achieving a quantum advantage. The bound can also serve as an entanglement witness in networks and can be generalized to states generated by shallow circuits. Moreover, while our bound prohibits local network states from achieving the Heisenberg limit, we design a probabilistic protocol that, once successful, attains this ultimate limit of quantum metrology. Our work establishes both the limitation and the possibility of quantum metrology within quantum networks. | 翻訳日:2023-07-18 17:58:51 公開日:2023-07-15 |
# open scene understanding: 視覚障害のある人を助けるために、接地状況認識がセグメントを満たしている Open Scene Understanding: Grounded Situation Recognition Meets Segment Anything for Helping People with Visual Impairments ( http://arxiv.org/abs/2307.07757v1 ) ライセンス: Link先を確認 | Ruiping Liu, Jiaming Zhang, Kunyu Peng, Junwei Zheng, Ke Cao, Yufan Chen, Kailun Yang, Rainer Stiefelhagen | (参考訳) 接地状況認識(GSR)は、視覚的シーンを文脈的に直感的に認識し、解釈することができ、画像に描かれた健全な活動(動詞)と関連する実体(ロール)をもたらす。
本稿では,視覚障害者(pvi)支援におけるgsrの活用について考察する。
しかし、検出された物体の正確な位置決め情報は、その周囲を確実にナビゲートし、情報的な決定を下すためにしばしば必要とされる。
ボックス境界ではなく,関連するエンティティのピクセル単位の高密度セグメンテーションマスクを生成することを目的としたOpen Scene Understanding (OpenSU)システムを提案する。
具体的には,GSR上にOpenSUシステムを構築し,Segment Anything Model (SAM) を有効活用する。
さらに,エンコーダ-デコーダ構造間の特徴抽出と相互作用を向上させるため,GSRの性能向上のために,固体トランスフォーマーバックボーンを用いたOpenSUシステムを構築した。
収束を加速するため、GSRデコーダ内の全てのアクティベーション機能をGELUに置き換え、トレーニング期間を短縮する。
定量的解析では,SWiGデータセット上での最先端性能を実現する。
さらに、専用の補助技術データセットのフィールドテストやアプリケーションデモを通じて、視覚障害者のシーン理解を強化し、独立したモビリティを促進するために、提案するOpenSUシステムを利用することができる。
私たちのコードはhttps://github.com/RuipingL/OpenSUで公開されます。 Grounded Situation Recognition (GSR) is capable of recognizing and interpreting visual scenes in a contextually intuitive way, yielding salient activities (verbs) and the involved entities (roles) depicted in images. In this work, we focus on the application of GSR in assisting people with visual impairments (PVI). However, precise localization information of detected objects is often required to navigate their surroundings confidently and make informed decisions. For the first time, we propose an Open Scene Understanding (OpenSU) system that aims to generate pixel-wise dense segmentation masks of involved entities instead of bounding boxes. Specifically, we build our OpenSU system on top of GSR by additionally adopting an efficient Segment Anything Model (SAM). Furthermore, to enhance the feature extraction and interaction between the encoder-decoder structure, we construct our OpenSU system using a solid pure transformer backbone to improve the performance of GSR. In order to accelerate the convergence, we replace all the activation functions within the GSR decoders with GELU, thereby reducing the training duration. In quantitative analysis, our model achieves state-of-the-art performance on the SWiG dataset. Moreover, through field testing on dedicated assistive technology datasets and application demonstrations, the proposed OpenSU system can be used to enhance scene understanding and facilitate the independent mobility of people with visual impairments. Our code will be available at https://github.com/RuipingL/OpenSU. | 翻訳日:2023-07-18 17:58:34 公開日:2023-07-15 |
# 5G NSA暗号化データフローの物理チャネル記録によるリアルタイムトラフィック分類 Real-time Traffic Classification for 5G NSA Encrypted Data Flows With Physical Channel Records ( http://arxiv.org/abs/2307.07756v1 ) ライセンス: Link先を確認 | Xiao Fei, Philippe Martins and Jialiang Lu | (参考訳) 第5世代New-Radio(5G-NR)モバイルネットワークトラフィックの分類は、通信分野における新たな話題である。
品質・オブ・サービス(QoS)管理や動的リソース割り当てに利用することができる。
しかし、Deep Packet Inspection (DPI)のような従来のアプローチは、暗号化されたデータフローに直接適用することはできない。
そのため、動的送信を処理するために、新しいリアルタイム暗号化トラフィック分類アルゴリズムを検討する必要がある。
本研究では,実時間暗号化された5gノンスタンダロン(nsa)アプリケーションレベルのトラフィック分類について,物理チャネル記録を用いて検討する。
特徴の広さのため、決定木に基づく勾配ブースティングアルゴリズムは分類に有効なアプローチである。
我々は、複数のアプリケーションからのトラフィックを伴うノイズ制限された5G NSAトレースデータセットを生成する。
物理チャネルレコードのシーケンスを数値ベクトルに変換するパイプラインを新たに開発した。
そこで本研究では, 高速並列学習の利点と実用シナリオにおける計算負荷の低さから, 光勾配ブースティングマシン (lgbm) を用いた機械学習モデルを提案する。
実験により,本アルゴリズムは,最先端の応答時間10msで95%の精度を達成できることが実証された。 The classification of fifth-generation New-Radio (5G-NR) mobile network traffic is an emerging topic in the field of telecommunications. It can be utilized for quality of service (QoS) management and dynamic resource allocation. However, traditional approaches such as Deep Packet Inspection (DPI) can not be directly applied to encrypted data flows. Therefore, new real-time encrypted traffic classification algorithms need to be investigated to handle dynamic transmission. In this study, we examine the real-time encrypted 5G Non-Standalone (NSA) application-level traffic classification using physical channel records. Due to the vastness of their features, decision-tree-based gradient boosting algorithms are a viable approach for classification. We generate a noise-limited 5G NSA trace dataset with traffic from multiple applications. We develop a new pipeline to convert sequences of physical channel records into numerical vectors. A set of machine learning models are tested, and we propose our solution based on Light Gradient Boosting Machine (LGBM) due to its advantages in fast parallel training and low computational burden in practical scenarios. Our experiments demonstrate that our algorithm can achieve 95% accuracy on the classification task with a state-of-the-art response time as quick as 10ms. | 翻訳日:2023-07-18 17:58:09 公開日:2023-07-15 |
# ビデオベースのポーズ伝達のための双方向変形可能な運動変調 Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer ( http://arxiv.org/abs/2307.07754v1 ) ライセンス: Link先を確認 | Wing-Yin Yu, Lai-Man Po, Ray Cheung, Yuzhi Zhao, Yu Xue, Kun Li | (参考訳) ビデオベースの人間のポーズ転送は、一連のターゲットの人間のポーズに基づいて、普通の人間の画像をアニメーション化するビデオ対ビデオ生成タスクである。
衣服の高構造な模様や不連続なポーズの伝達が困難であることを考慮すると、既存の方法はしばしば歪んだテクスチャやフリックなアーティファクトといった不十分な結果を生み出す。
これらの問題に対処するために,幾何学的カーネルオフセットと適応重み変調を用いたDMM(Deformable Motion Modulation)を提案し,特徴アライメントとスタイル転送を同時に行う。
スタイル転送に使用される通常のスタイル変調とは異なり、提案された変調機構は、不規則な受容視野を通して、オブジェクト形状に応じたスタイルコードから滑らかなフレームを適応的に再構成する。
時空間整合性を高めるために,両方向の伝搬を利用してノイズポーズによって生成された歪んだ画像列から隠れた動き情報を抽出する。
提案する特徴伝達は前方および後方伝播による運動予測能力を大幅に向上させる。
定量的および定性的な実験結果は、画像の忠実さと視覚的連続性の観点から、最先端技術よりも優れていることを示す。
ソースコードはgithub.com/rocketappslab/bdmmで公開されている。 Video-based human pose transfer is a video-to-video generation task that animates a plain source human image based on a series of target human poses. Considering the difficulties in transferring highly structural patterns on the garments and discontinuous poses, existing methods often generate unsatisfactory results such as distorted textures and flickering artifacts. To address these issues, we propose a novel Deformable Motion Modulation (DMM) that utilizes geometric kernel offset with adaptive weight modulation to simultaneously perform feature alignment and style transfer. Different from normal style modulation used in style transfer, the proposed modulation mechanism adaptively reconstructs smoothed frames from style codes according to the object shape through an irregular receptive field of view. To enhance the spatio-temporal consistency, we leverage bidirectional propagation to extract the hidden motion information from a warped image sequence generated by noisy poses. The proposed feature propagation significantly enhances the motion prediction ability by forward and backward propagation. Both quantitative and qualitative experimental results demonstrate superiority over the state-of-the-arts in terms of image fidelity and visual continuity. The source code is publicly available at github.com/rocketappslab/bdmm. | 翻訳日:2023-07-18 17:57:52 公開日:2023-07-15 |
# ニューラルネットワークにおける一般化と不確実性推定のための学習表現優先 Learning Expressive Priors for Generalization and Uncertainty Estimation in Neural Networks ( http://arxiv.org/abs/2307.07753v1 ) ライセンス: Link先を確認 | Dominik Schnaus, Jongseok Lee, Daniel Cremers, Rudolph Triebel | (参考訳) 本研究では,ディープニューラルネットワークにおける一般化と不確実性推定を推し進める新しい事前学習手法を提案する。
鍵となるアイデアは、ニューラルネットワークのスケーラブルで構造化された後方を、一般化の保証を伴う情報優先として活用することだ。
我々の学習した先行モデルは、ImageNet上の事前訓練されたモデルのベイズ的モデルのように、大規模に表現的確率的表現を提供し、さらに非空一般化境界を生成する。
我々はまた、このアイデアを、私たちの前者の好ましい特性が望ましい継続的学習フレームワークに拡張する。
主な実現要因は,(1)クロネッカー積の和,(2)一般化境界の改善につながる可搬目的の導出と最適化である。
本研究では,不確実性推定と一般化に対する本手法の有効性を実証的に示す。 In this work, we propose a novel prior learning method for advancing generalization and uncertainty estimation in deep neural networks. The key idea is to exploit scalable and structured posteriors of neural networks as informative priors with generalization guarantees. Our learned priors provide expressive probabilistic representations at large scale, like Bayesian counterparts of pre-trained models on ImageNet, and further produce non-vacuous generalization bounds. We also extend this idea to a continual learning framework, where the favorable properties of our priors are desirable. Major enablers are our technical contributions: (1) the sums-of-Kronecker-product computations, and (2) the derivations and optimizations of tractable objectives that lead to improved generalization bounds. Empirically, we exhaustively show the effectiveness of this method for uncertainty estimation and generalization. | 翻訳日:2023-07-18 17:57:32 公開日:2023-07-15 |
# 安定四足歩行ロボットのモデル予測制御と予測強化学習の組み合わせ Combining model-predictive control and predictive reinforcement learning for stable quadrupedal robot locomotion ( http://arxiv.org/abs/2307.07752v1 ) ライセンス: Link先を確認 | Vyacheslav Kovalev, Anna Shkromada, Henni Ouerdane and Pavel Osinenko | (参考訳) 安定歩行生成は足歩行にとって重要な問題であり、例えば不均一な地形での移動や電力消費など他の重要な性能要因に影響を及ぼす。
歩行の安定性は、足のついたロボットの体とそれが動く環境との相互作用の効率的な制御から生じる。
本稿では,モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
モデル予測制御(MPC)は、状態制約管理に便利なインターフェースを提供するため、オンライン学習(適応的なバリエーションを除く)を一切利用しない確立された手法である。
強化学習(RL)とは対照的に、純粋な経験に基づく適応に依存している。
ベアボーンのバリエーションでは、RLは高い複雑さと高価なシミュレーション/実験のため、ロボットに必ずしも適していない。
本研究では,両制御法を組み合わせることで,四足ロボットの安定ゲート生成問題に対処する。
ニューラルネットワークによってモデル化されたQ-関数の形で、コストのかかるロールアウトアルゴリズムを用いて、我々が開発し、適用したハイブリッドアプローチは、純粋にMPCアプローチで予測地平線とともに指数関数的に成長する計算複雑性を緩和する。
我々のRL歩行制御器は,名目MP制御器が故障する短時間で安定な移動を実現することを示す。
さらに,我々のコントローラはライブ操作が可能であり,従来のトレーニングを必要としない。
この結果から,MPCとRLのハイブリッド化は,オンライン制御能力と計算複雑性のバランスをとる上で有益であることが示唆された。 Stable gait generation is a crucial problem for legged robot locomotion as this impacts other critical performance factors such as, e.g. mobility over an uneven terrain and power consumption. Gait generation stability results from the efficient control of the interaction between the legged robot's body and the environment where it moves. Here, we study how this can be achieved by a combination of model-predictive and predictive reinforcement learning controllers. Model-predictive control (MPC) is a well-established method that does not utilize any online learning (except for some adaptive variations) as it provides a convenient interface for state constraints management. Reinforcement learning (RL), in contrast, relies on adaptation based on pure experience. In its bare-bone variants, RL is not always suitable for robots due to their high complexity and expensive simulation/experimentation. In this work, we combine both control methods to address the quadrupedal robot stable gate generation problem. The hybrid approach that we develop and apply uses a cost roll-out algorithm with a tail cost in the form of a Q-function modeled by a neural network; this allows to alleviate the computational complexity, which grows exponentially with the prediction horizon in a purely MPC approach. We demonstrate that our RL gait controller achieves stable locomotion at short horizons, where a nominal MP controller fails. Further, our controller is capable of live operation, meaning that it does not require previous training. Our results suggest that the hybridization of MPC with RL, as presented here, is beneficial to achieve a good balance between online control capabilities and computational complexity. | 翻訳日:2023-07-18 17:57:18 公開日:2023-07-15 |
# メタラーニングロバスト質多様性ポートフォリオ Generative Meta-Learning Robust Quality-Diversity Portfolio ( http://arxiv.org/abs/2307.07811v1 ) ライセンス: Link先を確認 | Kamer Ali Yuksel | (参考訳) 本稿では,ロバストなポートフォリオアンサンブルを最適化するメタラーニング手法を提案する。
この方法は深層生成モデルを用いて多様で高品質なサブポートフォリオを合成し、アンサンブルポートフォリオを形成する。
生成モデルは、畳み込み層、ステートフルLSTMモジュール、および高密度ネットワークから構成される。
トレーニング中、モデルはランダムにサンプリングされたガウスノイズのバッチを取得し、解の集団を出力し、問題の目的関数を用いて評価する。
モデルの重みは勾配ベースのオプティマイザを使って更新される。
畳み込み層はノイズを遅延空間の所望の分布に変換する一方、LSTMモジュールは世代間依存を追加する。
密度の高いネットワークは解の人口をデコードする。
提案手法は, サブポートフォリオの性能を最大化し, 最大相関を最小化することで, 系統的ショックに対するロバストなアンサンブルポートフォリオを実現する。
この手法は確率的報酬が存在する実験に有効であった。
さらに, 実験結果(第1報)は, 生成したサブポートフォリオ重量の平均値から得られるアンサンブルポートフォリオが頑健であり, 一般化可能であることを示した。
提案手法は,ロバストアンサンブルのための共最適化解の多様性を求める問題に適用できる。
ソースコードとデータセットは補足材料に含まれる。 This paper proposes a novel meta-learning approach to optimize a robust portfolio ensemble. The method uses a deep generative model to generate diverse and high-quality sub-portfolios combined to form the ensemble portfolio. The generative model consists of a convolutional layer, a stateful LSTM module, and a dense network. During training, the model takes a randomly sampled batch of Gaussian noise and outputs a population of solutions, which are then evaluated using the objective function of the problem. The weights of the model are updated using a gradient-based optimizer. The convolutional layer transforms the noise into a desired distribution in latent space, while the LSTM module adds dependence between generations. The dense network decodes the population of solutions. The proposed method balances maximizing the performance of the sub-portfolios with minimizing their maximum correlation, resulting in a robust ensemble portfolio against systematic shocks. The approach was effective in experiments where stochastic rewards were present. Moreover, the results (Fig. 1) demonstrated that the ensemble portfolio obtained by taking the average of the generated sub-portfolio weights was robust and generalized well. The proposed method can be applied to problems where diversity is desired among co-optimized solutions for a robust ensemble. The source-codes and the dataset are in the supplementary material. | 翻訳日:2023-07-18 17:49:27 公開日:2023-07-15 |
# グラフ自己同型群同変ニューラルネットワーク Graph Automorphism Group Equivariant Neural Networks ( http://arxiv.org/abs/2307.07810v1 ) ライセンス: Link先を確認 | Edward Pearce-Crump | (参考訳) n$頂点を持つ任意のグラフ$g$とその自己同型群$\textrm{aut}(g)$に対して、任意の層が$\mathbb{r}^{n}$のテンソルパワーを持つ$\textrm{aut}(g)$-同変ニューラルネットワークの完全な特徴付けを提供する。
特に、学習可能で線型な$\textrm{Aut}(G)$-equivariant layer function に対して、標準的な $\mathbb{R}^{n}$ 基底においてそのようなテンソルパワー空間間での行列の分散集合が見つかる。 For any graph $G$ having $n$ vertices and its automorphism group $\textrm{Aut}(G)$, we provide a full characterisation of all of the possible $\textrm{Aut}(G)$-equivariant neural networks whose layers are some tensor power of $\mathbb{R}^{n}$. In particular, we find a spanning set of matrices for the learnable, linear, $\textrm{Aut}(G)$-equivariant layer functions between such tensor power spaces in the standard basis of $\mathbb{R}^{n}$. | 翻訳日:2023-07-18 17:49:07 公開日:2023-07-15 |
# MUVF-YOLOX : 腎腫瘍診断のための多モード超音波ビデオ融合ネットワーク MUVF-YOLOX: A Multi-modal Ultrasound Video Fusion Network for Renal Tumor Diagnosis ( http://arxiv.org/abs/2307.07807v1 ) ライセンス: Link先を確認 | Junyu Li, Han Huang, Dong Ni, Wufeng Xue, Dongmei Zhu, Jun Cheng | (参考訳) 腎癌の早期診断は、患者の生存率を大幅に向上させる。
造影超音波(ceus)はコスト効率が高く非侵襲的な画像診断技術であり,腎腫瘍の診断に多用されている。
しかし, 良性および悪性の腎腫瘍の分類は, 癌や画像所見の高度に異質な出現のため, いまだに困難である。
本研究の目的は,BモードとCEUSモード超音波を併用した腎腫瘍の検出と分類である。
そこで本研究では, 腎腫瘍診断のためのマルチモーダル機能融合とビデオ分類を効果的に行うことのできる, マルチモーダル超音波ビデオ融合ネットワークを提案する。
注意に基づくマルチモーダル融合モジュールは、クロスアテンションと自己アテンションを使用して、モダリティ不変の特徴とモダリティ固有特徴を並列に抽出する。
さらに,低品質な特徴を自動的にフィルタリングし,複数のフレームから時間情報を効率よく統合し,腫瘍診断の精度を向上させるオブジェクトレベル時間アグリゲーション(OTA)モジュールを設計する。
マルチセンタデータセットによる実験結果から,提案手法は単一モードモデルと競合する手法よりも優れていた。
さらに,OTAモジュールはフレームレベルの予測よりも高い分類精度を実現する。
我々のコードは \url{https://github.com/JeunyuLi/MUAF} で入手できる。 Early diagnosis of renal cancer can greatly improve the survival rate of patients. Contrast-enhanced ultrasound (CEUS) is a cost-effective and non-invasive imaging technique and has become more and more frequently used for renal tumor diagnosis. However, the classification of benign and malignant renal tumors can still be very challenging due to the highly heterogeneous appearance of cancer and imaging artifacts. Our aim is to detect and classify renal tumors by integrating B-mode and CEUS-mode ultrasound videos. To this end, we propose a novel multi-modal ultrasound video fusion network that can effectively perform multi-modal feature fusion and video classification for renal tumor diagnosis. The attention-based multi-modal fusion module uses cross-attention and self-attention to extract modality-invariant features and modality-specific features in parallel. In addition, we design an object-level temporal aggregation (OTA) module that can automatically filter low-quality features and efficiently integrate temporal information from multiple frames to improve the accuracy of tumor diagnosis. Experimental results on a multicenter dataset show that the proposed framework outperforms the single-modal models and the competing methods. Furthermore, our OTA module achieves higher classification accuracy than the frame-level predictions. Our code is available at \url{https://github.com/JeunyuLi/MUAF}. | 翻訳日:2023-07-18 17:48:54 公開日:2023-07-15 |
# 推薦システムのためのダブルチャネルcnnを用いたオピニオンマイニング Opinion mining using Double Channel CNN for Recommender System ( http://arxiv.org/abs/2307.07798v1 ) ライセンス: Link先を確認 | Minoo Sayyadpour, Ali Nazarizadeh | (参考訳) インターネットとソーシャルメディアの成長に伴い、多くの非構造化データが作成されている。
大量のテキストデータには、オンラインストアやソーシャルメディアの製品に関するユーザの意見が含まれている。
それらを探索し分類することにより、顧客満足度、特定のイベントに対するユーザフィードバック、特定の製品の販売予測、その他のケースなど、有用な情報を取得することができる。
本稿では,深層学習モデルを用いた感情分析手法を提案する。
2チャネル畳み込みニューラルネットワークモデルは、5つの層を持ち、データから本質的な特徴を抽出するオピニオンマイニングに使われている。
我々は、初期データセットにSMOTEアルゴリズムを適用してコメント数を増やし、データをバランスづけた。
その後、アスペクトをクラスタ化します。
また,提案システムの性能向上のためのテンソル分解アルゴリズムを用いて,各クラスタに重みを割り当てる。
提案手法の精度は91.6%に達し,従来のアスペクトベースアプローチに比べて大幅に向上した。 Much unstructured data has been produced with the growth of the Internet and social media. A significant volume of textual data includes users' opinions about products in online stores and social media. By exploring and categorizing them, helpful information can be acquired, including customer satisfaction, user feedback about a particular event, predicting the sale of a specific product, and other similar cases. In this paper, we present an approach for sentiment analysis with a deep learning model and use it to recommend products. A two-channel convolutional neural network model has been used for opinion mining, which has five layers and extracts essential features from the data. We increased the number of comments by applying the SMOTE algorithm to the initial dataset and balanced the data. Then we proceed to cluster the aspects. We also assign a weight to each cluster using tensor decomposition algorithms that improve the recommender system's performance. Our proposed method has reached 91.6% accuracy, significantly improved compared to previous aspect-based approaches. | 翻訳日:2023-07-18 17:48:32 公開日:2023-07-15 |
# 自己監督行動認識のための共同学習と協調学習 Joint Adversarial and Collaborative Learning for Self-Supervised Action Recognition ( http://arxiv.org/abs/2307.07791v1 ) ライセンス: Link先を確認 | Tianyu Guo, Mengyuan Liu, Hong Liu, Wenhao Li, Jingwen Guo, Tao Wang, Yidi Li | (参考訳) インスタンスレベルの判別能力を考慮すると、mocoやsimclrを含むコントラスト学習手法が元の画像表現学習課題から適応され、自己教師付き骨格に基づく行動認識課題が解決される。
これらの手法は通常、複数のデータストリーム(関節、動き、骨)をアンサンブル学習に用い、一方、単一のストリーム内で識別的特徴空間を構築し、複数のストリームからの情報を効果的に集約する方法は未解決の問題である。
そこで我々はまず,BYOLと呼ばれる新しいコントラスト学習手法を適用し,骨格データから学習し,SkeletonBYOLを自己教師型骨格に基づく行動認識のための単純かつ効果的なベースラインとして定式化する。
さらに,SkeletonBYOLに触発されて,CMAL(Cross-Model Adversarial Learning)とCSCL(Cross-Stream Collaborative Learning)を組み合わせた,ACL(Adversarial and Collaborative Learning)フレームワークを提案する。
具体的には、CMALはクロスモデル逆数損失による単一ストリーム表現を学習し、より識別的な特徴を得る。
複数ストリーム情報の集約と対話を行うため、csclは、個別ストリームに対する特徴生成の監督と指導としてアンサンブル学習の類似性擬似ラベルを生成して設計する。
3つのデータセットに対する実験によりCMALとCSCLの相補性を検証するとともに,各種評価プロトコルを用いた最先端手法に対して,本手法が有効であることを示す。
私たちのコードとモデルは、 \url{https://github.com/levigty/acl}で公開されている。 Considering the instance-level discriminative ability, contrastive learning methods, including MoCo and SimCLR, have been adapted from the original image representation learning task to solve the self-supervised skeleton-based action recognition task. These methods usually use multiple data streams (i.e., joint, motion, and bone) for ensemble learning, meanwhile, how to construct a discriminative feature space within a single stream and effectively aggregate the information from multiple streams remains an open problem. To this end, we first apply a new contrastive learning method called BYOL to learn from skeleton data and formulate SkeletonBYOL as a simple yet effective baseline for self-supervised skeleton-based action recognition. Inspired by SkeletonBYOL, we further present a joint Adversarial and Collaborative Learning (ACL) framework, which combines Cross-Model Adversarial Learning (CMAL) and Cross-Stream Collaborative Learning (CSCL). Specifically, CMAL learns single-stream representation by cross-model adversarial loss to obtain more discriminative features. To aggregate and interact with multi-stream information, CSCL is designed by generating similarity pseudo label of ensemble learning as supervision and guiding feature generation for individual streams. Exhaustive experiments on three datasets verify the complementary properties between CMAL and CSCL and also verify that our method can perform favorably against state-of-the-art methods using various evaluation protocols. Our code and models are publicly available at \url{https://github.com/Levigty/ACL}. | 翻訳日:2023-07-18 17:48:17 公開日:2023-07-15 |
# 条件付き顔編集のための適応非線形潜時変換 Adaptive Nonlinear Latent Transformation for Conditional Face Editing ( http://arxiv.org/abs/2307.07790v1 ) ライセンス: Link先を確認 | Zhizhong Huang, Siteng Ma, Junping Zhang, Hongming Shan | (参考訳) 最近の顔編集の研究は、通常、線形意味方向を通してStyleGANの潜伏空間を操作している。
しかし、通常、顔属性の絡み合いに悩まされ、最適な編集強度を調整し、強力な監視信号を持つバイナリ属性に限定される。
本稿では,不連続および条件付き顔編集のための適応型非線形潜時変換法を提案する。
具体的には、AdaTransは操作プロセスをいくつかの細かいステップに分割する。つまり、各ステップの方向と大きさは、顔属性と潜伏符号の両方で条件付けされる。
このように、AdaTransは適応的な非線形変換軌道を記述し、他の属性を変更せずに顔を対象属性に操作する。
次に、AdaTransは予め定義された密度モデルを利用して、変換された潜在符号の確率を最大化することにより、潜在符号の分布における学習軌跡を制約する。
さらに,属性間の絡み合いをなくし,ラベル付きデータの必要性を一層緩和するための相互情報枠組みの下での絡み合い学習戦略を提案する。
その結果、AdaTransは、アンタングルメント、非バイナリ属性による柔軟性、高忠実さの利点により、制御可能な顔編集を可能にする。
様々な顔の属性に関する広範囲な実験の結果は、既存の最先端の手法、特に年齢差が大きくラベル付き例の少ない最も困難なシナリオにおいて、提案するadatransの質的かつ定量的な有効性を示している。
ソースコードはhttps://github.com/Hzzone/AdaTransで入手できる。 Recent works for face editing usually manipulate the latent space of StyleGAN via the linear semantic directions. However, they usually suffer from the entanglement of facial attributes, need to tune the optimal editing strength, and are limited to binary attributes with strong supervision signals. This paper proposes a novel adaptive nonlinear latent transformation for disentangled and conditional face editing, termed AdaTrans. Specifically, our AdaTrans divides the manipulation process into several finer steps; i.e., the direction and size at each step are conditioned on both the facial attributes and the latent codes. In this way, AdaTrans describes an adaptive nonlinear transformation trajectory to manipulate the faces into target attributes while keeping other attributes unchanged. Then, AdaTrans leverages a predefined density model to constrain the learned trajectory in the distribution of latent codes by maximizing the likelihood of transformed latent code. Moreover, we also propose a disentangled learning strategy under a mutual information framework to eliminate the entanglement among attributes, which can further relax the need for labeled data. Consequently, AdaTrans enables a controllable face editing with the advantages of disentanglement, flexibility with non-binary attributes, and high fidelity. Extensive experimental results on various facial attributes demonstrate the qualitative and quantitative effectiveness of the proposed AdaTrans over existing state-of-the-art methods, especially in the most challenging scenarios with a large age gap and few labeled examples. The source code is available at https://github.com/Hzzone/AdaTrans. | 翻訳日:2023-07-18 17:47:49 公開日:2023-07-15 |
# 過パラメータ化モデルの補間情報基準 The Interpolating Information Criterion for Overparameterized Models ( http://arxiv.org/abs/2307.07785v1 ) ライセンス: Link先を確認 | Liam Hodgkinson, Chris van der Heide, Robert Salomone, Fred Roosta, Michael W. Mahoney | (参考訳) モデル選択の問題は補間推定器の設定において考慮され、モデルパラメータの数はデータセットのサイズを超える。
古典的な情報基準は通常、大きなデータ制限、ペナルティ化モデルサイズを考慮する。
しかし、過パラメータモデルがうまく機能する現代の環境では、これらの基準は適切ではない。
任意の超パラメータモデルに対して、同じ限界確率を持つ双対劣パラメータモデルが存在することを示し、ベイズ双対性の形式を確立する。
これにより、より古典的なメソッドを過度にパラメータ化された設定で使用することが可能になり、補間情報基準(Interpolating Information Criterion)が明らかにされる。
我々の新しい情報基準は, 事前の誤特定, 幾何学的, スペクトル的特性を考慮し, 本手法における既知の経験的および理論的挙動と数値的に整合する。 The problem of model selection is considered for the setting of interpolating estimators, where the number of model parameters exceeds the size of the dataset. Classical information criteria typically consider the large-data limit, penalizing model size. However, these criteria are not appropriate in modern settings where overparameterized models tend to perform well. For any overparameterized model, we show that there exists a dual underparameterized model that possesses the same marginal likelihood, thus establishing a form of Bayesian duality. This enables more classical methods to be used in the overparameterized setting, revealing the Interpolating Information Criterion, a measure of model quality that naturally incorporates the choice of prior into the model selection. Our new information criterion accounts for prior misspecification, geometric and spectral properties of the model, and is numerically consistent with known empirical and theoretical behavior in this regime. | 翻訳日:2023-07-18 17:47:25 公開日:2023-07-15 |
# 非等方性距離と組み合わせによるトレースリンク勧告の改善 Improving Trace Link Recommendation by Using Non-Isotropic Distances and Combinations ( http://arxiv.org/abs/2307.07781v1 ) ライセンス: Link先を確認 | Christof Tinnes | (参考訳) ソフトウェア開発ライフサイクルのアーティファクト間のトレースリンクの存在は、ソフトウェア開発、メンテナンス、運用中の多くのアクティビティの効率を改善することができる。
残念ながら、トレースリンクの作成とメンテナンスは時間がかかり、エラーが発生しやすい。
トレースリンクの自動計算には研究が費やされており、近年は自然言語処理の分野で強力なツールが利用可能になるなど、勢いを増している。
本稿では,トレースリンクを計算するための非線形類似度尺度の研究において行ったいくつかの観測について報告する。
意味的類似性に関する幾何学的視点をとることは、将来のトレーサビリティ研究に役立つと論じている。
我々は,4つのオープンソースプロジェクトと2つの産業プロジェクトのデータセットの観測結果を評価した。
さらに,我々の発見はより一般的であり,他の情報検索問題にも基礎を築けることを指摘する。 The existence of trace links between artifacts of the software development life cycle can improve the efficiency of many activities during software development, maintenance and operations. Unfortunately, the creation and maintenance of trace links is time-consuming and error-prone. Research efforts have been spent to automatically compute trace links and lately gained momentum, e.g., due to the availability of powerful tools in the area of natural language processing. In this paper, we report on some observations that we made during studying non-linear similarity measures for computing trace links. We argue, that taking a geometric viewpoint on semantic similarity can be helpful for future traceability research. We evaluated our observations on a dataset of four open source projects and two industrial projects. We furthermore point out that our findings are more general and can build the basis for other information retrieval problems as well. | 翻訳日:2023-07-18 17:47:12 公開日:2023-07-15 |
# CatBoost Versus XGBoostとLightGBM:ゼロ膨張保険請求データのための予測モデルの開発 CatBoost Versus XGBoost and LightGBM: Developing Enhanced Predictive Models for Zero-Inflated Insurance Claim Data ( http://arxiv.org/abs/2307.07771v1 ) ライセンス: Link先を確認 | Banghee So | (参考訳) 不動産・カジュアル保険業界では、過剰なゼロの正のクレームの分布が右に曲がったため、クレーム予測モデルの構築にいくつかの課題が提示されている。
poisson や negative binomial generalized linear models (glms) のような伝統的なモデルは、しばしば膨らんだ零点に苦しむ。
これに対応して、アクチュアリ科学の研究者たちは、従来のカウントモデルとバイナリモデルを融合して、これらのデータセットをより効率的に処理する‘ゼロインフレーション’モデルを採用した。
本稿では,請求頻度モデルを構築するために,ゼロインフレーションテレマティクスデータを含む保険請求データを処理するためにブースティングアルゴリズムを使用する。
我々は,XGBoost,LightGBM,CatBoostの3つの普及度向上ライブラリを,保険請求データをトレーニングし,アクチュアリル周波数モデルに適合させるのに適したライブラリとして評価し,比較した。
2つの異なるデータセットの厳密な分析を通して、予測性能に基づいた自動クレーム頻度モデルの開発において、CatBoostが優れていることを示した。
また,Zero-inflated Poissonは,データ特性によらず,インフレ確率と分布平均の関係を仮定して,木モデルを強化した。
さらに、特定のCatBoostツールを用いて、テレマティクスデータを使用する場合の周波数モデルに対する異なるリスク特徴の影響と相互作用を検討した。 In the property and casualty insurance industry, some challenges are presented in constructing claim predictive models due to a highly right-skewed distribution of positive claims with excess zeros. Traditional models, such as Poisson or negative binomial Generalized Linear Models(GLMs), frequently struggle with inflated zeros. In response to this, researchers in actuarial science have employed ``zero-inflated" models that merge a traditional count model and a binary model to address these datasets more effectively. This paper uses boosting algorithms to process insurance claim data, including zero-inflated telematics data, in order to construct claim frequency models. We evaluated and compared three popular gradient boosting libraries - XGBoost, LightGBM, and CatBoost - with the aim of identifying the most suitable library for training insurance claim data and fitting actuarial frequency models. Through a rigorous analysis of two distinct datasets, we demonstrated that CatBoost is superior in developing auto claim frequency models based on predictive performance. We also found that Zero-inflated Poisson boosted tree models, with variations in their assumptions about the relationship between inflation probability and distribution mean, outperformed others depending on data characteristics. Furthermore, by using a specific CatBoost tool, we explored the effects and interactions of different risk features on the frequency model when using telematics data. | 翻訳日:2023-07-18 17:47:00 公開日:2023-07-15 |
# randomHAR:センサ選択と強化学習による人間の活動認識のための深層学習の改善 randomHAR: Improving Ensemble Deep Learners for Human Activity Recognition with Sensor Selection and Reinforcement Learning ( http://arxiv.org/abs/2307.07770v1 ) ライセンス: Link先を確認 | Yiran Huang, Yexu Zhou, Till Riedel, Likun Fang, Michael Beigl | (参考訳) ディープラーニングは、ヒューマンアクティビティ認識(har)の分野で効果的なアプローチであることが証明されており、手動の機能エンジニアリングを必要とする他のアーキテクチャよりも優れている。
近年の進歩にもかかわらず、ノイズデータ、クラス内変動性、クラス間の類似性など、HARデータ固有の課題が残っている。
これらの課題に対処するため,ランダムHARと呼ばれるアンサンブル手法を提案する。
randomHARの基本的な考え方は、与えられたデータセットからランダムに選択されたセンサーデータに基づいて、同じアーキテクチャで一連のディープラーニングモデルをトレーニングすることだ。
さらに、エージェントは強化学習アルゴリズムを用いて訓練され、実行時予測に使用されるトレーニングされたモデルの最適なサブセットを特定する。
既存の作業とは対照的に、このアプローチは構成モデルのアーキテクチャよりもアンサンブルプロセスを最適化する。
このアプローチの性能を評価するために、6つのharベンチマークデータセットで、現在の技術を含む2つのharアルゴリズムと比較した。
実験の結果,提案手法は最先端手法であるアンサンブルLSTMよりも優れていることが示された。 Deep learning has proven to be an effective approach in the field of Human activity recognition (HAR), outperforming other architectures that require manual feature engineering. Despite recent advancements, challenges inherent to HAR data, such as noisy data, intra-class variability and inter-class similarity, remain. To address these challenges, we propose an ensemble method, called randomHAR. The general idea behind randomHAR is training a series of deep learning models with the same architecture on randomly selected sensor data from the given dataset. Besides, an agent is trained with the reinforcement learning algorithm to identify the optimal subset of the trained models that are utilized for runtime prediction. In contrast to existing work, this approach optimizes the ensemble process rather than the architecture of the constituent models. To assess the performance of the approach, we compare it against two HAR algorithms, including the current state of the art, on six HAR benchmark datasets. The result of the experiment demonstrates that the proposed approach outperforms the state-of-the-art method, ensembleLSTM. | 翻訳日:2023-07-18 17:46:33 公開日:2023-07-15 |
# AIOptimizer -- コスト最小化のための強化学習ベースのソフトウェアパフォーマンス最適化プロトタイプ AIOptimizer -- A reinforcement learning-based software performance optimisation prototype for cost minimisation ( http://arxiv.org/abs/2307.07846v1 ) ライセンス: Link先を確認 | Noopur Zambare | (参考訳) 本稿では,コスト削減に基づくソフトウェアパフォーマンス最適化ツールのプロトタイプであるAIOptimizerを紹介する。
AIOptimizerは、強化学習によって駆動されるレコメンデーションシステムを使用して、ソフトウェアシステムの効率性と可売性を改善する。
論文では、精度、適応性、スケーラビリティ、ユーザフレンドリといったAIOptimizerの設計要素を強調している。
効果的でユーザ中心のパフォーマンス最適化ソリューションを提供するため、モジュール設計、データ収集技術、継続的学習、レジリエントな統合の使用が重視される。
また、障害識別、コスト最適化推奨、効率予測、協調といったAIOptimizer機能についても検討している。
さらに、いくつかのソフトウェア開発ライフサイクルモデルを調査し、コスト最適化のために強化学習ベースのレコメンデーションエンジンを使用するAIOptimizerを紹介している。
本研究の目的は,高度な最適化技術とスマートレコメンデーションシステムを用いてソフトウェアの性能を継続的に向上し,コストを削減するプロトタイプとして,AIOptimizerを強調することである。
この研究はウォーターフォールモデル、反復モデル、スパイラルモデル、v-モデル、ビッグバンモデル、アジャイルモデルなど、様々なソフトウェア開発ライフサイクルモデルに焦点を当てている。
それぞれのモデルには利点と欠点があり、その有用性はプロジェクトの仕様と特性によって決定される。
AIOptimizerツールは、そのようなソフトウェアパフォーマンスオプティマイザの理論的プロトタイプである。 This research article introduces AIOptimizer, a prototype for a software performance optimisation tool based on cost reduction. AIOptimizer uses a recommendation system driven by reinforcement learning to improve software system efficiency and affordability. The paper highlights AIOptimizer's design factors, such as accuracy, adaptability, scalability, and user-friendliness. To provide effective and user-centric performance optimisation solutions, it emphasises the use of a modular design, data gathering techniques, continuous learning, and resilient integration. The article also investigates AIOptimizer features such as fault identification, cost optimisation recommendations, efficiency prediction, and cooperation. Furthermore, it explores several software development life cycle models and introduces AIOptimizer uses a reinforcement learning-based recommendation engine for cost optimisation. The purpose of this research study is to highlight AIOptimizer as a prototype that uses advanced optimisation techniques and smart recommendation systems to continually enhance software performance and save expenses. The research focuses on various software development life cycle models, such as the Waterfall model, Iterative model, Spiral model, V-Model, Big Bang model and Agile Model. Each model has advantages and disadvantages, and their usefulness is determined by the project's specifications and characteristics. The AIOptimizer tool is a theoretical prototype for such software performance optimizers. | 翻訳日:2023-07-18 17:41:24 公開日:2023-07-15 |
# TransformerはUniversal Predictorである Transformers are Universal Predictors ( http://arxiv.org/abs/2307.07843v1 ) ライセンス: Link先を確認 | Sourya Basu, Moulik Choraria, Lav R. Varshney | (参考訳) 言語モデリングにおけるTransformerアーキテクチャの限界を見つけ,情報理論的な意味での普遍的な予測特性を示す。
さらに,非漸近的データレジームの性能解析を行い,特にデータ効率のよいトレーニングにおいて,トランスフォーマーアーキテクチャの様々なコンポーネントの役割を理解する。
合成データと実データの両方を用いて理論的解析を行った。 We find limits to the Transformer architecture for language modeling and show it has a universal prediction property in an information-theoretic sense. We further analyze performance in non-asymptotic data regimes to understand the role of various components of the Transformer architecture, especially in the context of data-efficient training. We validate our theoretical analysis with experiments on both synthetic and real datasets. | 翻訳日:2023-07-18 17:41:03 公開日:2023-07-15 |
# FLOSSリポジトリにおけるプロセスマップとしての学習プロセスの探索 An Exploration of Learning Processes as Process Maps in FLOSS Repositories ( http://arxiv.org/abs/2307.07841v1 ) ライセンス: Link先を確認 | Patrick Mukala, Antonio Cerone, Franco Turini | (参考訳) フリー/libreオープンソースソフトウェア(floss)環境が無制限の学習機会を提供するという証拠がある。
コミュニティメンバーは、仲間との対話中や、これらの環境で利用可能なツールの使用中に、多くの活動に従事します。
FLOSSプロジェクトの参加者による調査およびアンケートの分析を通じて、FLOSSにおける学習プロセスの存在を文書化している。
同時に、FLOSS現象のダイナミクス、その人気と成功を理解することへの関心は、異なるFLOSSデータソースからデータを抽出・分析するツールや技術の開発につながった。
この新たな分野はMining Software Repositories (MSR)と呼ばれる。
これらの努力にもかかわらず、FLOSSリポジトリから直接学習プロセスの実証的な証拠を提供することを目的とした研究は限られている。
本稿では,プロセスマイニングをベースとしたアプローチを提案し,FLOSSリポジトリに記録されているFLOSS参加者からの学習行動を追跡し,プロセスマップとして視覚化することで,このような取り組みを誘発する。
プロセスマップは、フロスデータに記録された実際の動作の図式表現を提供する。
本研究の目的は,FLOSSコミュニティにおける学習行動の理解を促進する重要な証拠を提供することである。
そこで本研究では,まずflossリポジトリをマイニングしてイベントログを生成し,次にプロセスマップを生成し,関連する統計データ解釈を行い,これらのリポジトリからプロセス発見の価値を示す効果的な手法を提案する。 Evidence suggests that Free/Libre Open Source Software (FLOSS) environments provide unlimited learning opportunities. Community members engage in a number of activities both during their interaction with their peers and while making use of the tools available in these environments. A number of studies document the existence of learning processes in FLOSS through the analysis of surveys and questionnaires filled by FLOSS project participants. At the same time, the interest in understanding the dynamics of the FLOSS phenomenon, its popularity and success resulted in the development of tools and techniques for extracting and analyzing data from different FLOSS data sources. This new field is called Mining Software Repositories (MSR). In spite of these efforts, there is limited work aiming to provide empirical evidence of learning processes directly from FLOSS repositories. In this paper, we seek to trigger such an initiative by proposing an approach based on Process Mining to trace learning behaviors from FLOSS participants trails of activities, as recorded in FLOSS repositories, and visualize them as process maps. Process maps provide a pictorial representation of real behavior as it is recorded in FLOSS data. Our aim is to provide critical evidence that boosts the understanding of learning behavior in FLOSS communities by analyzing the relevant repositories. In order to accomplish this, we propose an effective approach that comprises first the mining of FLOSS repositories in order to generate Event logs, and then the generation of process maps, equipped with relevant statistical data interpreting and indicating the value of process discovery from these repos-itories | 翻訳日:2023-07-18 17:40:56 公開日:2023-07-15 |
# RegExplainer: 回帰タスクにおけるグラフニューラルネットワークの説明生成 RegExplainer: Generating Explanations for Graph Neural Networks in Regression Task ( http://arxiv.org/abs/2307.07840v1 ) ライセンス: Link先を確認 | Jiaxing Zhang, Zhuomin Chen, Hao Mei, Dongsheng Luo, and Hua Wei | (参考訳) グラフ回帰は基本的なタスクであり、幅広いグラフ学習タスクで注目を集めています。
しかし、推論プロセスはしばしば解釈できない。
既存の説明手法の多くは、分類タスクにおけるGNNの動作を理解することに限定されている。
本研究では,グラフ回帰モデル (XAIG-R) を解釈するための説明を求める。
既存の手法では分布シフトと連続的に順序付けられた決定境界を見落としており,回帰タスクで適用されることを妨げている。
これらの課題に対処するために,情報ボトルネック理論に基づく新たな目標を提案し,モデルに依存しない方法で様々なGNNをサポートする新しい混合フレームワークを提案する。
さらに,回帰作業において連続的に順序付けられたラベルに取り組むための対比学習戦略を提案する。
提案手法の有効性を実証的に検証するために,評価のための3つのベンチマークデータセットと実生活データセットを導入する。
大規模な実験により,回帰作業におけるGNNモデルの解釈における提案手法の有効性が示された。 Graph regression is a fundamental task and has received increasing attention in a wide range of graph learning tasks. However, the inference process is often not interpretable. Most existing explanation techniques are limited to understanding GNN behaviors in classification tasks. In this work, we seek an explanation to interpret the graph regression models (XAIG-R). We show that existing methods overlook the distribution shifting and continuously ordered decision boundary, which hinders them away from being applied in the regression tasks. To address these challenges, we propose a novel objective based on the information bottleneck theory and introduce a new mix-up framework, which could support various GNNs in a model-agnostic manner. We further present a contrastive learning strategy to tackle the continuously ordered labels in regression task. To empirically verify the effectiveness of the proposed method, we introduce three benchmark datasets and a real-life dataset for evaluation. Extensive experiments show the effectiveness of the proposed method in interpreting GNN models in regression tasks. | 翻訳日:2023-07-18 17:40:35 公開日:2023-07-15 |
# Jaynes-Cummings sum Inside the Jaynes-Cummings sum ( http://arxiv.org/abs/2307.07838v1 ) ライセンス: Link先を確認 | S.I. Pavlik | (参考訳) Jaynes-Cummingsモデルにおける原子反転は、ハンケル輪郭上の積分として正確な表現を持つことが示されている。
コヒーレントな状態の場に対しては、積分はサドル点法を用いて評価される。
時間の関数としてのサドル点の軌跡は、多値ランベルト函数の枝上にある。
これらはすべて初期時点から始まるが、異なるタイミングで反転への最大貢献を行う。
崩壊と最初のリバイバルが明確に区別されている場合、その後のリバイバルはいくつかの軌道の同等の寄与によって決定される。 It is shown that the atomic inversion in the the Jaynes-Cummings model has an exact representation as an integral over the Hankel contour. For a field in a coherent state, the integral is evaluated using the saddle point method. The trajectories of saddle points as a function of time are on the branches of the multi-valued Lambert function. All of them start at the initial moment of time, but make the maximum contribution to the inversion at different times. If the collapse and the first revival are clearly distinguished, then subsequent revivals are determined by the comparable contributions of several trajectories. | 翻訳日:2023-07-18 17:40:22 公開日:2023-07-15 |
# MixupExplainer: データ拡張によるグラフニューラルネットワークの説明の一般化 MixupExplainer: Generalizing Explanations for Graph Neural Networks with Data Augmentation ( http://arxiv.org/abs/2307.07832v1 ) ライセンス: Link先を確認 | Jiaxing Zhang, Dongsheng Luo, and Hua Wei | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習する能力によって、注目を集めている。
しかし、それらの予測はしばしば解釈できない。
GNN予測を理解するために、ポストホックなインスタンスレベルの説明法が提案されている。
これらの手法は,訓練されたGNNの予測動作を説明する部分構造を探索する。
本稿では,既存の手法における分布シフト問題の存在について,特に厳密な意思決定境界を持つ実生活データセットにおける説明品質に影響を与える点について述べる。
この問題に対処するために,バニラGIBと同等のラベルに依存しないグラフ変数を含む一般化グラフ情報ボトルネック(GIB)形式を導入する。
一般化gibにより,分散シフト問題を解くための理論的保証付きグラフミックスアップ法mixupexplainerを提案する。
提案手法の有効性を検証するために,合成データと実世界のデータセットの両方について広範な実験を行った。
また,提案手法が分散シフト問題を緩和する方法についての詳細な分析を行った。 Graph Neural Networks (GNNs) have received increasing attention due to their ability to learn from graph-structured data. However, their predictions are often not interpretable. Post-hoc instance-level explanation methods have been proposed to understand GNN predictions. These methods seek to discover substructures that explain the prediction behavior of a trained GNN. In this paper, we shed light on the existence of the distribution shifting issue in existing methods, which affects explanation quality, particularly in applications on real-life datasets with tight decision boundaries. To address this issue, we introduce a generalized Graph Information Bottleneck (GIB) form that includes a label-independent graph variable, which is equivalent to the vanilla GIB. Driven by the generalized GIB, we propose a graph mixup method, MixupExplainer, with a theoretical guarantee to resolve the distribution shifting issue. We conduct extensive experiments on both synthetic and real-world datasets to validate the effectiveness of our proposed mixup approach over existing approaches. We also provide a detailed analysis of how our proposed approach alleviates the distribution shifting issue. | 翻訳日:2023-07-18 17:40:14 公開日:2023-07-15 |
# HQG-Net:高画質誘導による医療画像改善 HQG-Net: Unpaired Medical Image Enhancement with High-Quality Guidance ( http://arxiv.org/abs/2307.07829v1 ) ライセンス: Link先を確認 | Chunming He, Kai Li, Guoxia Xu, Jiangpeng Yan, Longxiang Tang, Yulun Zhang, Xiu Li and Yaowei Wang | (参考訳) Unpaired Medical Image Enhancement (UMIE)は、低品質(LQ)の医用画像から高品質(HQ)の画像に変換することを目的としている。
既存のアプローチはPix2Pix/CycleGANをベースとしており、ある程度有効であるが、HQ情報を使って拡張プロセスのガイドに失敗し、望ましくないアーティファクトや構造的歪みにつながる可能性がある。
本稿では,従来の手法の制限を回避するための新しいUMIE手法を提案する。これは,HQキューをLQエンハンスメントプロセスに直接変換することで,LQドメインとHQドメインの連立分布下でのUMIEタスクをモデル化する。
具体的には、HQ画像から特徴を抽出し、HQキューをエンコードすると思われる特徴を拡張ネットワークに明示的に挿入し、変分正規化モジュールでLQエンハンスメントを誘導する。
我々は、生成したHQイメージがHQドメインに落下することを確実にするために、差別者と反対に拡張ネットワークを訓練する。
さらに、ウェーブレットベースの画素レベルとマルチエンコーダベースの特徴レベル制約による拡張プロセスのガイドとなるコンテンツ認識損失を提案する。
さらに,画像強調処理の鍵となる動機は,下流タスクに改良されたイメージを役立てることである。我々は,UMIEタスクと下流タスクを協調的に最適化するバイレベル学習手法を提案し,下流タスクに対して視覚的に魅力的かつ好適なHQイメージの生成を支援する。
新たに収集された2つのデータセットを含む3つの医療データセットの実験では、提案手法が既存の手法よりも品質向上とダウンストリームタスク性能の両方において優れていることが確認された。
コードと新たに収集したデータセットをコミュニティスタディとして公開します。 Unpaired Medical Image Enhancement (UMIE) aims to transform a low-quality (LQ) medical image into a high-quality (HQ) one without relying on paired images for training. While most existing approaches are based on Pix2Pix/CycleGAN and are effective to some extent, they fail to explicitly use HQ information to guide the enhancement process, which can lead to undesired artifacts and structural distortions. In this paper, we propose a novel UMIE approach that avoids the above limitation of existing methods by directly encoding HQ cues into the LQ enhancement process in a variational fashion and thus model the UMIE task under the joint distribution between the LQ and HQ domains. Specifically, we extract features from an HQ image and explicitly insert the features, which are expected to encode HQ cues, into the enhancement network to guide the LQ enhancement with the variational normalization module. We train the enhancement network adversarially with a discriminator to ensure the generated HQ image falls into the HQ domain. We further propose a content-aware loss to guide the enhancement process with wavelet-based pixel-level and multi-encoder-based feature-level constraints. Additionally, as a key motivation for performing image enhancement is to make the enhanced images serve better for downstream tasks, we propose a bi-level learning scheme to optimize the UMIE task and downstream tasks cooperatively, helping generate HQ images both visually appealing and favorable for downstream tasks. Experiments on three medical datasets, including two newly collected datasets, verify that the proposed method outperforms existing techniques in terms of both enhancement quality and downstream task performance. We will make the code and the newly collected datasets publicly available for community study. | 翻訳日:2023-07-18 17:39:58 公開日:2023-07-15 |
# 平均KLパラメータ化による最小ランダム符号学習 Minimal Random Code Learning with Mean-KL Parameterization ( http://arxiv.org/abs/2307.07816v1 ) ライセンス: Link先を確認 | Jihao Andreas Lin, Gergely Flamich, Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 本稿では,変分ベイズニューラルネットワークの圧縮に用いる2種類の最小ランダム符号学習(MIRACLE)の質的挙動とロバスト性について検討する。
MIRACLEは、ウェイト後部$Q_{\mathbf{w}}$に対して強力で条件付きガウス変分近似を実装し、相対エントロピー符号化を用いてガウス符号分布$P_{\mathbf{w}}$を用いて後部から重量サンプルを圧縮する。
所望の圧縮率を達成するには、$d_{\mathrm{kl}}[q_{\mathbf{w}} \vert p_{\mathbf{w}}]$ を制約しなければならない。
代わりに、$q_{\mathbf{w}}$ を平均でパラメータ化し、kl を $p_{\mathbf{w}}$ から分岐させ、圧縮コストを構成によって所望の値に制限する。
我々は,平均-KLパラメータ化による変動学習が2倍の速度で収束し,圧縮後の予測性能を維持することを示した。
さらに, 平均-KLは, より重い尾と圧縮された重みを持つ, より有意義な変動分布をもたらすことを示した。 This paper studies the qualitative behavior and robustness of two variants of Minimal Random Code Learning (MIRACLE) used to compress variational Bayesian neural networks. MIRACLE implements a powerful, conditionally Gaussian variational approximation for the weight posterior $Q_{\mathbf{w}}$ and uses relative entropy coding to compress a weight sample from the posterior using a Gaussian coding distribution $P_{\mathbf{w}}$. To achieve the desired compression rate, $D_{\mathrm{KL}}[Q_{\mathbf{w}} \Vert P_{\mathbf{w}}]$ must be constrained, which requires a computationally expensive annealing procedure under the conventional mean-variance (Mean-Var) parameterization for $Q_{\mathbf{w}}$. Instead, we parameterize $Q_{\mathbf{w}}$ by its mean and KL divergence from $P_{\mathbf{w}}$ to constrain the compression cost to the desired value by construction. We demonstrate that variational training with Mean-KL parameterization converges twice as fast and maintains predictive performance after compression. Furthermore, we show that Mean-KL leads to more meaningful variational distributions with heavier tails and compressed weight samples which are more robust to pruning. | 翻訳日:2023-07-18 17:39:28 公開日:2023-07-15 |
# TinyTracker: センサー内注視推定のための超高速かつ低消費電力エッジビジョン TinyTracker: Ultra-Fast and Ultra-Low-Power Edge Vision for In-Sensor Gaze Estimation ( http://arxiv.org/abs/2307.07813v1 ) ライセンス: Link先を確認 | Pietro Bonazzi, Thomas Ruegg, Sizhen Bian, Yawei Li, Michele Magno | (参考訳) インテリジェントエッジビジョンタスクは、通常はエッジプラットフォームで計算負荷が重いため、電力とレイテンシ効率の課題に直面します。
この研究は、ソニーによるIMX500と呼ばれる最初の「センサーのAI」ビジョンプラットフォームを活用し、超高速で超低消費電力のエッジビジョンアプリケーションを実現する。
imx500を評価し、google coral dev microやsony spresenseといった他のエッジプラットフォームと比較し、視線の推定をケーススタディとして検討した。
本研究では,エッジビジョンシステムの性能を最大化するために設計された2次元視線推定のための高効率,完全量子化モデルであるtinytrackerを提案する。
tinytracker は itracker [1] と比較して41倍のサイズ削減 (600kb) を達成し、視線推定精度(全量子化時最大 0.16 cm)を損なうことはない。
TinyTrackerのSony IMX500ビジョンセンサーへの展開により、エンドツーエンドのレイテンシは約19ミリ秒になる。
カメラは17.9ミリ秒で読み出し、処理し、加速器に送信する。
ネットワークの推論時間は 0.86ms で、センサから結果を取得するのに 0.24 ms を追加する。
エンド・ツー・エンドのシステム全体のエネルギー消費量は4.9 mJであり、推論は0.06 mJである。
エンドツーエンドの調査では、IMX500はCoralMicro(19ms vs 34.4ms)より1.7倍高速で、電力効率は7倍(4.9mJ VS 34.2mJ)である。 Intelligent edge vision tasks face the challenge of power and latency efficiency as the computation load is normally heavy for edge platforms. This work leverages one of the first "AI in sensor" vision platforms, IMX500 by Sony, to achieve ultra-fast and ultra-low-power end-to-end edge vision applications. We evaluate the IMX500 and compare it to other edge platforms, such as the Google Coral Dev Micro and Sony Spresense, by exploring gaze estimation as a case study. We propose TinyTracker, a highly efficient, fully quantized model for 2D gaze estimation designed to maximize the performance of the edge vision systems considered in this study. TinyTracker achieves a 41x size reduction (600Kb) compared to iTracker [1] without significant loss in gaze estimation accuracy (maximum of 0.16 cm when fully quantized). TinyTracker's deployment on the Sony IMX500 vision sensor results in end-to-end latency of around 19ms. The camera takes around 17.9ms to read, process and transmit the pixels to the accelerator. The inference time of the network is 0.86ms with an additional 0.24 ms for retrieving the results from the sensor. and the overall energy consumption of the end-to-end system is 4.9 mJ, including 0.06 mJ for inference. The end-to-end study shows that IMX500 is 1.7x faster than CoralMicro (19ms vs 34.4ms) and 7x more power efficient (4.9mJ VS 34.2mJ) | 翻訳日:2023-07-18 17:38:51 公開日:2023-07-15 |
# Few-Shot Video Segmentationのためのマルチスケールメモリコンバータ変換器 Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation ( http://arxiv.org/abs/2307.07812v1 ) ライセンス: Link先を確認 | Mennatullah Siam, Rezaul Karim, He Zhao, Richard Wildes | (参考訳) ビデオセグメンテーション(Few-shot video segmentation)は、ラベル付きサポートイメージの少ないクエリビデオにおいて、特定の新規クラスを記述するためのタスクである。
典型的なアプローチでは、単一の機能層との比較を制限しながら、サポートとクエリ機能を比較し、潜在的に価値のある情報を無視する。
本稿では,トランスフォーマーデコーダ内のスケールにまたがる情報を結合したビデオセグメンテーションのためのメタ学習型マルチスケールメモリコンパレータ(mmc)を提案する。
セグメンテーションタスクのための典型的なマルチスケールトランスフォーマーデコーダは、スケール間の情報交換を通じて、圧縮表現とそのクエリを学習する。
従来とは違って,マルチスケールメモリトランスフォーマーデコードにより,マルチスケール情報交換時の詳細な特徴マップを保存し,バックグラウンドと新規クラスの混同を軽減する。
提案手法と統合して,異なるタスクのスケールにわたる情報交換の複数の形態を調査し,各タスクで使用する方法の実証的証拠を提示する。
クエリとサポート機能の全体的な比較は、リッチセマンティクスと正確なローカライゼーションの両方のメリットがある。
提案手法は,ビデオオブジェクトのセグメンテーションと,完全教師付きセグメンテーションに適応したバージョンを主とする。
いずれの場合も、我々の手法はベースラインを上回り、最先端のパフォーマンスを得る。
私たちのコードはhttps://github.com/MSiam/MMC-MultiscaleMemoryで公開されています。 Few-shot video segmentation is the task of delineating a specific novel class in a query video using few labelled support images. Typical approaches compare support and query features while limiting comparisons to a single feature layer and thereby ignore potentially valuable information. We present a meta-learned Multiscale Memory Comparator (MMC) for few-shot video segmentation that combines information across scales within a transformer decoder. Typical multiscale transformer decoders for segmentation tasks learn a compressed representation, their queries, through information exchange across scales. Unlike previous work, we instead preserve the detailed feature maps during across scale information exchange via a multiscale memory transformer decoding to reduce confusion between the background and novel class. Integral to the approach, we investigate multiple forms of information exchange across scales in different tasks and provide insights with empirical evidence on which to use in each task. The overall comparisons among query and support features benefit from both rich semantics and precise localization. We demonstrate our approach primarily on few-shot video object segmentation and an adapted version on the fully supervised counterpart. In all cases, our approach outperforms the baseline and yields state-of-the-art performance. Our code is publicly available at https://github.com/MSiam/MMC-MultiscaleMemory. | 翻訳日:2023-07-18 17:37:58 公開日:2023-07-15 |
# 感情分析による各種LSTMモデルを用いた株価予測モデルの効率性の比較 Contrasting the efficiency of stock price prediction models using various types of LSTM models aided with sentiment analysis ( http://arxiv.org/abs/2307.07868v1 ) ライセンス: Link先を確認 | Varun Sangwan, Vishesh Kumar Singh, Bibin Christopher V | (参考訳) 我々の研究は、企業予測とセクターパフォーマンスを用いた最良のモデルと、短期目標と長期目標の両方において、企業の株価の正確な予測方法を見つけることを目的としています。 Our research aims to find the best model that uses companies projections and sector performances and how the given company fares accordingly to correctly predict equity share prices for both short and long term goals. | 翻訳日:2023-07-18 17:29:30 公開日:2023-07-15 |
# CIDER:短文テキストに対する文脈感性感情分析 CIDER: Context sensitive sentiment analysis for short-form text ( http://arxiv.org/abs/2307.07864v1 ) ライセンス: Link先を確認 | James C. Young, Rudy Arthur, Hywel T.P. Williams | (参考訳) 研究者は、ツイートやredditの投稿、新聞の見出しなど、特定のトピック、テーマ、イベントに焦点を当てた大量の短いテキストの感情分析を行うことが多い。
通常、一般的な感情分析手法は、平均でよく機能するが、異なる文脈で起こる意味の変化を見逃すものである。例えば、「アクティブ」という言葉は、「アクティブライフスタイル」と「アクティブ火山」というフレーズで全く異なる意図と価値を持っている。
本研究は,文脈に敏感な感情分析を行う新たな手法であるcider(context informed dictionary and sentiment reasoner)を提案する。
本稿では,ciderアルゴリズムを詳述し,天気に関する大量のツイートに対して,最先端のジェネラリストの感情分析よりも優れていることを示す。
私たちはCIDERの実装をpythonパッケージとして公開しました。 Researchers commonly perform sentiment analysis on large collections of short texts like tweets, Reddit posts or newspaper headlines that are all focused on a specific topic, theme or event. Usually, general purpose sentiment analysis methods are used which perform well on average but miss the variation in meaning that happens across different contexts, for example, the word "active" has a very different intention and valence in the phrase "active lifestyle" versus "active volcano". This work presents a new approach, CIDER (Context Informed Dictionary and sEntiment Reasoner), which performs context sensitive sentiment analysis, where the valence of sentiment laden terms is inferred from the whole corpus before being used to score the individual texts. In this paper we detail the CIDER algorithm and demonstrate that it outperforms state-of-the-art generalist sentiment analysis on a large collection of tweets about the weather. We have made our implementation of CIDER available as a python package: https://pypi.org/project/ciderpolarity/. | 翻訳日:2023-07-18 17:29:24 公開日:2023-07-15 |
# 乾燥豆の分類アルゴリズムとsvmカーネルの有効性のベンチマーク Benchmarking the Effectiveness of Classification Algorithms and SVM Kernels for Dry Beans ( http://arxiv.org/abs/2307.07863v1 ) ライセンス: Link先を確認 | Anant Mehta, Prajit Sengupta, Divisha Garg, Harpreet Singh, Yosi Shacham Diamand | (参考訳) 植物育成者や農業研究者は、乾燥豆データセットを分析して、望ましい特徴、病気抵抗性、栄養内容を特定し、作物生産性を向上させることができる。
本研究は, 線形, 多項式, 放射基底関数 (RBF) の異なるサポートベクトルマシン (SVM) 分類アルゴリズムと, その他の一般的な分類アルゴリズムを比較し, 比較する。
この分析はDry Bean Dataset上で行われ、PCA(Principal Component Analysis)は次元減少のための前処理ステップとして実行される。
RBF SVMカーネルアルゴリズムは93.34%、精度92.61%、リコール92.35%、F1スコア91.40%を達成している。
本研究は, 複雑かつ非線形な構造化データセットに対して, 異なるSVMアルゴリズムを検討することの重要性を強調することで, 適応的可視化と経験的分析とともに, 貴重なガイダンスを提供する。 Plant breeders and agricultural researchers can increase crop productivity by identifying desirable features, disease resistance, and nutritional content by analysing the Dry Bean dataset. This study analyses and compares different Support Vector Machine (SVM) classification algorithms, namely linear, polynomial, and radial basis function (RBF), along with other popular classification algorithms. The analysis is performed on the Dry Bean Dataset, with PCA (Principal Component Analysis) conducted as a preprocessing step for dimensionality reduction. The primary evaluation metric used is accuracy, and the RBF SVM kernel algorithm achieves the highest Accuracy of 93.34%, Precision of 92.61%, Recall of 92.35% and F1 Score as 91.40%. Along with adept visualization and empirical analysis, this study offers valuable guidance by emphasizing the importance of considering different SVM algorithms for complex and non-linear structured datasets. | 翻訳日:2023-07-18 17:29:07 公開日:2023-07-15 |
# 物理的世界におけるクロスモーダル攻撃に対する統一逆境パッチ Unified Adversarial Patch for Cross-modal Attacks in the Physical World ( http://arxiv.org/abs/2307.07859v1 ) ライセンス: Link先を確認 | Xingxing Wei, Yao Huang, Yitong Sun, Jie Yu | (参考訳) 近年,DNNをベースとした物体検出装置の物理的攻撃が報告されている。
セキュリティを確保するために、多くのシナリオが目に見えるセンサーと赤外線センサーで同時に展開されるため、これらのシングルモーダルな物理的攻撃の失敗に繋がる。
このような状況下での潜在的なリスクを示すため、単一パッチで同時に可視・赤外線物体検出装置を騙すような、異種間物理的な攻撃を行うための統合逆襲パッチを提案する。
可視・赤外線センサーの異なる撮像機構を考えると、本研究は、変化時に異なるモードで捉えられる敵パッチの形状をモデル化することに焦点を当てている。
そこで我々は, コンパクトで滑らかな形状を実現するために, 境界限定形状最適化を新たに設計し, 物理的世界で容易に実装できる。
さらに、最適化過程における可視検出器と赤外線検出器の不正度をバランスさせるため、複数モードセンサの予測スコアを反復的に減少させるために、対向パッチを誘導するスコア認識反復評価法を提案する。
我々はついに、この手法を1段検出器YOLOv3と2段検出器Faster RCNNに対してテストした。
その結果,アタック成功率 (asr) は73.33%,アタック成功率は69.17%であった。
さらに重要なことは、視界と赤外線センサーがさまざまな角度、距離、姿勢、シーンで物体を撃ったとき、物理的な世界の効果的な攻撃を検証することである。 Recently, physical adversarial attacks have been presented to evade DNNs-based object detectors. To ensure the security, many scenarios are simultaneously deployed with visible sensors and infrared sensors, leading to the failures of these single-modal physical attacks. To show the potential risks under such scenes, we propose a unified adversarial patch to perform cross-modal physical attacks, i.e., fooling visible and infrared object detectors at the same time via a single patch. Considering different imaging mechanisms of visible and infrared sensors, our work focuses on modeling the shapes of adversarial patches, which can be captured in different modalities when they change. To this end, we design a novel boundary-limited shape optimization to achieve the compact and smooth shapes, and thus they can be easily implemented in the physical world. In addition, to balance the fooling degree between visible detector and infrared detector during the optimization process, we propose a score-aware iterative evaluation, which can guide the adversarial patch to iteratively reduce the predicted scores of the multi-modal sensors. We finally test our method against the one-stage detector: YOLOv3 and the two-stage detector: Faster RCNN. Results show that our unified patch achieves an Attack Success Rate (ASR) of 73.33% and 69.17%, respectively. More importantly, we verify the effective attacks in the physical world when visible and infrared sensors shoot the objects under various settings like different angles, distances, postures, and scenes. | 翻訳日:2023-07-18 17:28:50 公開日:2023-07-15 |
# 時間の問題に対するボームの解法 The Bohmian solution to the problem of time ( http://arxiv.org/abs/2307.07858v1 ) ライセンス: Link先を確認 | Ward Struyve | (参考訳) 標準的な量子重力では、宇宙の波動関数は静的であり、いわゆる時間問題に繋がる。
ボヘミア力学がこの問題をいかに解決するかを概説する。 In canonical quantum gravity the wave function of the universe is static, leading to the so-called problem of time. We summarize here how Bohmian mechanics solves this problem. | 翻訳日:2023-07-18 17:28:27 公開日:2023-07-15 |
# 自動駐車のためのマルチヒューリスティック検索に基づく運動計画 A Multi-Heuristic Search-based Motion Planning for Automated Parking ( http://arxiv.org/abs/2307.07857v1 ) ライセンス: Link先を確認 | Bhargav Adabala, Zlatan Ajanovi\'c | (参考訳) 駐車場や建設現場のような非構造環境では、大きな探索空間と車両の運動力学的制約のため、リアルタイムな計画達成は困難である。
いくつかの最先端のプランナーはヒューリスティック検索に基づくアルゴリズムを利用している。
しかし、検索のガイドとして使用される単一のヒューリスティック関数の品質に大きく依存している。
そのため、合理的な計算性能を達成できないため、車両の応答に不必要な遅延が発生する。
本研究では,複数のヒューリスティック関数とその個々のアドバンテージを用いて,与えられた探索空間の異なる複雑度を捉えるマルチヒューリスティック探索手法を採用する。
私たちの知識では、このアプローチは以前、この問題に使われていなかった。
この目的のために、複数の許容および非許容ヒューリスティック関数を定義し、双方向利用とハイブリッドな連続離散探索空間を扱うために元のマルチヒューリスティックa*探索を拡張し、運動プリミティブのスケールを適応させる機構を導入する。
この利点を示すために、マルチヒューリスティックA*アルゴリズムは、非常に人気のあるヒューリスティック検索ベースのアルゴリズムであるHybrid A*に対してベンチマークされる。
マルチヒューリスティックA*アルゴリズムは、計算効率と運動計画(パス)品質の両方でベースラインを上回った。 In unstructured environments like parking lots or construction sites, due to the large search-space and kinodynamic constraints of the vehicle, it is challenging to achieve real-time planning. Several state-of-the-art planners utilize heuristic search-based algorithms. However, they heavily rely on the quality of the single heuristic function, used to guide the search. Therefore, they are not capable to achieve reasonable computational performance, resulting in unnecessary delays in the response of the vehicle. In this work, we are adopting a Multi-Heuristic Search approach, that enables the use of multiple heuristic functions and their individual advantages to capture different complexities of a given search space. Based on our knowledge, this approach was not used previously for this problem. For this purpose, multiple admissible and non-admissible heuristic functions are defined, the original Multi-Heuristic A* Search was extended for bidirectional use and dealing with hybrid continuous-discrete search space, and a mechanism for adapting scale of motion primitives is introduced. To demonstrate the advantage, the Multi-Heuristic A* algorithm is benchmarked against a very popular heuristic search-based algorithm, Hybrid A*. The Multi-Heuristic A* algorithm outperformed baseline in both terms, computation efficiency and motion plan (path) quality. | 翻訳日:2023-07-18 17:28:24 公開日:2023-07-15 |
# 時間反転不変性とオントロジー Time reversal invariance and ontology ( http://arxiv.org/abs/2307.07856v1 ) ライセンス: Link先を確認 | Ward Struyve | (参考訳) アルベルトとキャレンダーは、古典的電気力学や非相対論的量子力学のような理論は時間反転不変である、という認識に異議を唱えている。
彼らは、時間反転は、標準ビューのように瞬時状態の変更を伴わずに、瞬間状態の時間的順序の単なる反転に対応するべきであると主張している。
したがって、アルベルトとカレンダーはこれらの理論は時間反転不変ではないと主張している。
アルバートとカレンダーの見解は批判され、多くの哲学者は時間の逆転は時間的秩序の逆転以上のものであると主張している。
本稿では,議論のそのような側面にはあまり関与せず,むしろ存在論的下決定を活かして意見の相違を解消する。
すなわち、オントロジーの適切な選択により、これらの理論は、実際にはアルバートとキャレンダーの意味での時間反転不変量である。 Albert and Callender have challenged the received view that theories like classical electrodynamics and non-relativistic quantum mechanics are time reversal invariant. They claim that time reversal should correspond to the mere reversal of the temporal order of the instantaneous states, without any accompanying change of the instantaneous state as in the standard view. As such, Albert and Callender claim, these theories are not time reversal invariant. The view of Albert and Callender has been much criticized, with many philosophers arguing that time reversal may correspond to more than the reversal of the temporal order. In this paper, we will not so much engage with that aspect of the debate, but rather deflate the disagreement by exploiting the ontological underdetermination. Namely, it will be argued that with a suitable choice of ontology, these theories are in fact time reversal invariant in the sense of Albert and Callender, in agreement with the standard view. | 翻訳日:2023-07-18 17:28:01 公開日:2023-07-15 |
# AspectCSE:コントラスト学習と構造化知識を用いたアスペクトベースの意味的テクスチャ類似性のための文埋め込み AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity using Contrastive Learning and Structured Knowledge ( http://arxiv.org/abs/2307.07851v1 ) ライセンス: Link先を確認 | Tim Schopf, Emanuel Gerber, Malte Ostendorff, Florian Matthes | (参考訳) 総称文埋め込みは意味的テキストの類似性の粗い近似を提供するが、テキストを類似させる特定の側面を無視する。
逆にアスペクトベースの文埋め込みは、特定の事前定義されたアスペクトに基づいたテキスト間の類似性を提供する。
したがって、テキストの類似性予測は特定の要求に向けられ、より説明しやすい。
本稿では,アスペクトに基づく文埋め込みのコントラスト学習手法であるAspectCSEを提案する。
その結果,AspectCSEは,複数の側面にわたる情報検索タスクの平均3.97%の改善を実現していることがわかった。
また、ウィキデータ知識グラフ特性を用いて、類似性予測において複数の特定の側面が同時に考慮されるマルチアスペクト文埋め込みのモデルを訓練する。
マルチアスペクト埋め込みはアスペクト固有の情報検索タスクにおける単一アスペクト埋め込みよりも優れていることを示す。
最後に、アスペクトに基づく文埋め込み空間を調べ、異なるアスペクトラベル間の明示的な類似性トレーニングなしにも、意味的に類似したアスペクトラベルの埋め込みがしばしば近いことを実証する。 Generic sentence embeddings provide a coarse-grained approximation of semantic textual similarity but ignore specific aspects that make texts similar. Conversely, aspect-based sentence embeddings provide similarities between texts based on certain predefined aspects. Thus, similarity predictions of texts are more targeted to specific requirements and more easily explainable. In this paper, we present AspectCSE, an approach for aspect-based contrastive learning of sentence embeddings. Results indicate that AspectCSE achieves an average improvement of 3.97% on information retrieval tasks across multiple aspects compared to the previous best results. We also propose using Wikidata knowledge graph properties to train models of multi-aspect sentence embeddings in which multiple specific aspects are simultaneously considered during similarity predictions. We demonstrate that multi-aspect embeddings outperform single-aspect embeddings on aspect-specific information retrieval tasks. Finally, we examine the aspect-based sentence embedding space and demonstrate that embeddings of semantically similar aspect labels are often close, even without explicit similarity training between different aspect labels. | 翻訳日:2023-07-18 17:27:45 公開日:2023-07-15 |
# ガウススコアマッチングによる変分推論 Variational Inference with Gaussian Score Matching ( http://arxiv.org/abs/2307.07849v1 ) ライセンス: Link先を確認 | Chirag Modi, Charles Margossian, Yuling Yao, Robert Gower, David Blei and Lawrence Saul | (参考訳) 変分推論 (vi) はベイズ統計学において計算に難解な後続分布を近似する手法である。
典型的には、VIはエビデンスローバウンド(ELBO)のような適切な目的を最小化することによって、単純なパラメトリック分布を対象の後方に適合させる。
本研究では,2つの分布が等しければ,そのスコア関数(すなわち,ログ密度の勾配)が支持点毎に等しくなるという,スコアマッチングの原理に基づくVIに対する新しいアプローチを提案する。
本研究では,変分近似と正確な後値とのスコアをマッチングする反復アルゴリズムである score matching vi を開発した。
各イテレーションでスコアマッチングviが内部最適化を解決し、現在の変動推定を最小に調整して、潜在変数の新しくサンプリングされた値のスコアにマッチさせる。
変分族がガウス群であるとき、この内部最適化は閉形式解を享受し、これをガウススコアマッチングvi (gsm-vi) と呼ぶ。
gsm-viはまた、微分可能なジョイント分布しか必要とせず、幅広い種類のモデルに適用できる「ブラックボックス」変分アルゴリズムでもある。
GSM-VI とブラックボックス変分推論 (BBVI) を比較する。
問題次元の関数としてgsm-viがどのように振る舞うか,対象共分散行列の条件数(対象がガウス的である場合),近似分布と正確な後方分布のミスマッチ度について検討した。
また,GSM-VIをデータセットとモデルの後部データベースから実世界のベイズ推定問題の集合として検討した。
全ての研究で、GSM-VIはBBVIよりも速いが、精度を犠牲にしないことがわかった。
近似のクオリティを得るためには10-100倍の勾配評価が必要となる。 Variational inference (VI) is a method to approximate the computationally intractable posterior distributions that arise in Bayesian statistics. Typically, VI fits a simple parametric distribution to the target posterior by minimizing an appropriate objective such as the evidence lower bound (ELBO). In this work, we present a new approach to VI based on the principle of score matching, that if two distributions are equal then their score functions (i.e., gradients of the log density) are equal at every point on their support. With this, we develop score matching VI, an iterative algorithm that seeks to match the scores between the variational approximation and the exact posterior. At each iteration, score matching VI solves an inner optimization, one that minimally adjusts the current variational estimate to match the scores at a newly sampled value of the latent variables. We show that when the variational family is a Gaussian, this inner optimization enjoys a closed form solution, which we call Gaussian score matching VI (GSM-VI). GSM-VI is also a ``black box'' variational algorithm in that it only requires a differentiable joint distribution, and as such it can be applied to a wide class of models. We compare GSM-VI to black box variational inference (BBVI), which has similar requirements but instead optimizes the ELBO. We study how GSM-VI behaves as a function of the problem dimensionality, the condition number of the target covariance matrix (when the target is Gaussian), and the degree of mismatch between the approximating and exact posterior distribution. We also study GSM-VI on a collection of real-world Bayesian inference problems from the posteriorDB database of datasets and models. In all of our studies we find that GSM-VI is faster than BBVI, but without sacrificing accuracy. It requires 10-100x fewer gradient evaluations to obtain a comparable quality of approximation. | 翻訳日:2023-07-18 17:27:29 公開日:2023-07-15 |
# クラウドゲームのためのニューラルビデオリカバリ Neural Video Recovery for Cloud Gaming ( http://arxiv.org/abs/2307.07847v1 ) ライセンス: Link先を確認 | Zhaoyuan He, Yifan Yang, Shuozhe Li, Diyuan Dai, Lili Qiu | (参考訳) クラウドゲームは数十億ドルの産業だ。
クラウドゲームのクライアントは、その動きをインターネット上のゲームサーバに送信し、その結果のビデオのレンダリングと送信を行う。
優れたゲーム体験を提供するには、80ms未満のレイテンシが必要である。
これは、ビデオレンダリング、エンコーディング、トランスミッション、デコード、ディスプレイがその時間枠内で終了しなければならないことを意味しており、特にサーバの過負荷、ネットワークの混雑、損失のために達成が困難である。
本稿では,クラウドゲームにおいて,失われたビデオフレームを復元する新しい手法を提案する。
従来のビデオフレームリカバリとは異なり,本手法ではゲーム状態を用いて復元精度を大幅に向上し,部分復号化フレームを用いて失われた部分を復元する。
我々は、総合的なシステムを開発する。
(i)ゲーム状態の効率的な抽出
(ii)h.264ビデオデコーダを改造して、フレームのどの部分が回復を必要とするかを示すマスクを生成し、
(iii)完全または部分的な映像フレームを復元する新しいニューラルネットワークを設計すること。
提案手法は,iPhone 12およびラップトップ実装を用いて広範に評価され,ゲーム再生におけるゲーム状態の有用性と全体的な設計の有効性を実証する。 Cloud gaming is a multi-billion dollar industry. A client in cloud gaming sends its movement to the game server on the Internet, which renders and transmits the resulting video back. In order to provide a good gaming experience, a latency below 80 ms is required. This means that video rendering, encoding, transmission, decoding, and display have to finish within that time frame, which is especially challenging to achieve due to server overload, network congestion, and losses. In this paper, we propose a new method for recovering lost or corrupted video frames in cloud gaming. Unlike traditional video frame recovery, our approach uses game states to significantly enhance recovery accuracy and utilizes partially decoded frames to recover lost portions. We develop a holistic system that consists of (i) efficiently extracting game states, (ii) modifying H.264 video decoder to generate a mask to indicate which portions of video frames need recovery, and (iii) designing a novel neural network to recover either complete or partial video frames. Our approach is extensively evaluated using iPhone 12 and laptop implementations, and we demonstrate the utility of game states in the game video recovery and the effectiveness of our overall design. | 翻訳日:2023-07-18 17:26:57 公開日:2023-07-15 |
# 手書き・印刷テキストセグメンテーション:署名事例研究 Handwritten and Printed Text Segmentation: A Signature Case Study ( http://arxiv.org/abs/2307.07887v1 ) ライセンス: Link先を確認 | Sina Gholamian and Ali Vahdat | (参考訳) スキャンされた文書を分析しながら、手書きのテキストは印刷されたテキストをオーバーレイすることができる。
これにより、光学文字認識(OCR)と文書のデジタル化プロセスが困難になり、その後、下流のNLPタスクが悪化する。
先行研究は手書きテキストのバイナリ分類のみに焦点を当てるか、文書の3クラスセグメンテーション(手書き、印刷、背景ピクセルの認識)を実行するかのどちらかである。
これにより、手書きおよび印刷された重なり合うピクセルを1つのクラスだけに割り当てることになり、それ故に他のクラスでは説明されない。
そこで本研究では,様々なクラスにおけるテキストの復元,特に重複部分の分割性能の向上を目的として,手書き・印刷テキストセグメンテーションの課題に対処するための新しい手法を開発した。
そこで本研究では,実際の法的文書から収集した新たなデータセットSignaTR6Kと,手書きおよび印刷テキストセグメンテーションタスクのための新しいモデルアーキテクチャを導入する。
我々の最高の設定は、以前の2つの異なるデータセットの17.9%と7.3%のIoUスコアよりも優れています。 While analyzing scanned documents, handwritten text can overlay printed text. This causes difficulties during the optical character recognition (OCR) and digitization process of documents, and subsequently, hurts downstream NLP tasks. Prior research either focuses only on the binary classification of handwritten text, or performs a three-class segmentation of the document, i.e., recognition of handwritten, printed, and background pixels. This results in the assignment of the handwritten and printed overlapping pixels to only one of the classes, and thus, they are not accounted for in the other class. Thus, in this research, we develop novel approaches for addressing the challenges of handwritten and printed text segmentation with the goal of recovering text in different classes in whole, especially improving the segmentation performance on the overlapping parts. As such, to facilitate with this task, we introduce a new dataset, SignaTR6K, collected from real legal documents, as well as a new model architecture for handwritten and printed text segmentation task. Our best configuration outperforms the prior work on two different datasets by 17.9% and 7.3% on IoU scores. | 翻訳日:2023-07-18 17:21:04 公開日:2023-07-15 |
# アンサンブルカルマンインバージョンを用いたシステム同定と制御のためのニューラルネットワークのグラディエントフリートレーニング Gradient-free training of neural ODEs for system identification and control using ensemble Kalman inversion ( http://arxiv.org/abs/2307.07882v1 ) ライセンス: Link先を確認 | Lucas B\"ottcher | (参考訳) アンサンブル・カルマン反転(英: Ensemble Kalman inversion、EKI)は、ベイズフレームワーク内の逆問題を解決するために用いられる連続モンテカルロ法である。
バックプロパゲーションとは異なり、EKIは、前方通過における人工ニューラルネットワークの評価のみを必要とする勾配のない最適化手法である。
本研究では,神経常微分方程式(neural normal differential equation,neural odes)の学習におけるekiの有効性について検討した。
EKIを最適制御問題に適用するために、Tikhonov型正規化項を含む逆問題を定式化する。
提案手法は,システム同定や最適制御問題において効率的にニューラルネットワークを訓練する手法であり,一般的な勾配型最適化器と競合するソリューションのランタイムと品質が向上することを示す。 Ensemble Kalman inversion (EKI) is a sequential Monte Carlo method used to solve inverse problems within a Bayesian framework. Unlike backpropagation, EKI is a gradient-free optimization method that only necessitates the evaluation of artificial neural networks in forward passes. In this study, we examine the effectiveness of EKI in training neural ordinary differential equations (neural ODEs) for system identification and control tasks. To apply EKI to optimal control problems, we formulate inverse problems that incorporate a Tikhonov-type regularization term. Our numerical results demonstrate that EKI is an efficient method for training neural ODEs in system identification and optimal control problems, with runtime and quality of solutions that are competitive with commonly used gradient-based optimizers. | 翻訳日:2023-07-18 17:20:44 公開日:2023-07-15 |
# クラス不均衡学習のためのグラフ埋め込み直観的ファジィRVFL Graph Embedded Intuitionistic Fuzzy RVFL for Class Imbalance Learning ( http://arxiv.org/abs/2307.07881v1 ) ライセンス: Link先を確認 | M.A. Ganaie, M. Sajid, A.K. Malik, M. Tanveer | (参考訳) 機械学習の領域は、クラス不均衡学習として知られる重要な研究領域に直面しており、マイノリティクラスの正確な分類においてかなりのハードルが生じる。
この問題は、多数派クラスがトレーニングプロセスで優先されるバイアス付きモデルとなり、少数派クラスの過小評価につながる可能性がある。
ランダムベクトル汎関数リンク(rvfl)ネットワークは、その速度と効率性から分類のための広く使われている効果的な学習モデルである。
しかし、不均衡なデータセットを扱う場合の精度は低い。
この制限を克服するために,クラス不均衡学習(ge-ifrvfl-cil)モデルのためのグラフ埋め込み直観的ファジィrvflを提案する。
提案されているGE-IFRVFL-CILモデルには、$のような多くのメリットがある。
(i)$ グラフ埋め込みを利用してデータセットから意味的にリッチな情報を抽出する。
(ii)データの不確実性と不正確性を扱うために直観的ファジィセットを使用する$$
(iii)一番重要なのは、クラス不均衡学習に取り組むことです。
重み付けスキーム,グラフ埋め込み,直観的ファジィセットの融合により,UCIやKEELなど,様々なベンチマーク不均衡データセットにおいて,提案モデルの性能が向上する。
さらに,提案したGE-IFRVFL-CILをADNIデータセット上に実装し,実世界の応用におけるモデルの有効性を示す。
提案手法は、機械学習におけるクラス不均衡に対処するための有望なソリューションを提供し、他の分類問題に適用できる可能性を持つ。 The domain of machine learning is confronted with a crucial research area known as class imbalance learning, which presents considerable hurdles in the precise classification of minority classes. This issue can result in biased models where the majority class takes precedence in the training process, leading to the underrepresentation of the minority class. The random vector functional link (RVFL) network is a widely-used and effective learning model for classification due to its speed and efficiency. However, it suffers from low accuracy when dealing with imbalanced datasets. To overcome this limitation, we propose a novel graph embedded intuitionistic fuzzy RVFL for class imbalance learning (GE-IFRVFL-CIL) model incorporating a weighting mechanism to handle imbalanced datasets. The proposed GE-IFRVFL-CIL model has a plethora of benefits, such as $(i)$ it leverages graph embedding to extract semantically rich information from the dataset, $(ii)$ it uses intuitionistic fuzzy sets to handle uncertainty and imprecision in the data, $(iii)$ and the most important, it tackles class imbalance learning. The amalgamation of a weighting scheme, graph embedding, and intuitionistic fuzzy sets leads to the superior performance of the proposed model on various benchmark imbalanced datasets, including UCI and KEEL. Furthermore, we implement the proposed GE-IFRVFL-CIL on the ADNI dataset and achieved promising results, demonstrating the model's effectiveness in real-world applications. The proposed method provides a promising solution for handling class imbalance in machine learning and has the potential to be applied to other classification problems. | 翻訳日:2023-07-18 17:20:29 公開日:2023-07-15 |
# バニラファインタニングよりプロンプトベースのファインタニングの方が良いのか?
言語間理解からの洞察 Is Prompt-Based Finetuning Always Better than Vanilla Finetuning? Insights from Cross-Lingual Language Understanding ( http://arxiv.org/abs/2307.07880v1 ) ライセンス: Link先を確認 | Bolei Ma, Ercong Nie, Helmut Schmid, Hinrich Sch\"utze | (参考訳) 多言語事前学習言語モデル(mplms)は、ソース言語(例えば英語)のタスク固有のラベル付きデータにmplmを微調整し、幅広い対象言語で評価することで、様々な自然言語理解タスクにおけるゼロショットクロスリンガルトランスファーの性能向上を実証した。
最近の研究では、プロンプトベースファインタニングが数ショットのシナリオで通常のファインタニングを上回ることが示されている。
しかし,多言語課題におけるプロンプトベース学習の探索は限られている。
本研究では,Prompt-based Finetuningの言語間通信能力を検討するために,ProFiTパイプラインを提案する。
本研究では,多言語間言語理解タスク(感性分類,パラフレーズ識別,自然言語推論)に関する総合的な実験を行い,複数ショットおよび全データ設定間での言語間移動におけるプロンプトベースファインタニング性能の変化傾向を実験的に分析する。
この結果から,言語間理解におけるアクシデントベースファインタニングの有効性と汎用性を明らかにした。
以上の結果から,全データシナリオでバニラファインタニング性能が向上し,タスクタイプによって異なるパフォーマンスパターンを伴って,数ショットシナリオで大きな優位性を示すことが示唆された。
さらに,プロンプトベースファインタニングの言語間性能に影響を及ぼす言語類似性や事前学習データサイズなどの基礎的要因を解析する。
全体として、我々の研究は、プロンプトベースの微調整の言語横断能力に関する貴重な洞察を提供します。 Multilingual pretrained language models (MPLMs) have demonstrated substantial performance improvements in zero-shot cross-lingual transfer across various natural language understanding tasks by finetuning MPLMs on task-specific labelled data of a source language (e.g. English) and evaluating on a wide range of target languages. Recent studies show that prompt-based finetuning surpasses regular finetuning in few-shot scenarios. However, the exploration of prompt-based learning in multilingual tasks remains limited. In this study, we propose the ProFiT pipeline to investigate the cross-lingual capabilities of Prompt-based Finetuning. We conduct comprehensive experiments on diverse cross-lingual language understanding tasks (sentiment classification, paraphrase identification, and natural language inference) and empirically analyze the variation trends of prompt-based finetuning performance in cross-lingual transfer across different few-shot and full-data settings. Our results reveal the effectiveness and versatility of prompt-based finetuning in cross-lingual language understanding. Our findings indicate that prompt-based finetuning outperforms vanilla finetuning in full-data scenarios and exhibits greater advantages in few-shot scenarios, with different performance patterns dependent on task types. Additionally, we analyze underlying factors such as language similarity and pretraining data size that impact the cross-lingual performance of prompt-based finetuning. Overall, our work provides valuable insights into the cross-lingual prowess of prompt-based finetuning. | 翻訳日:2023-07-18 17:20:03 公開日:2023-07-15 |
# ベクトル表現を用いた離散・連続領域におけるオンラインゴール認識 Online Goal Recognition in Discrete and Continuous Domains Using a Vectorial Representation ( http://arxiv.org/abs/2307.07876v1 ) ライセンス: Link先を確認 | Douglas Tesch, Leonardo Rosa Amado, Felipe Meneguzzi | (参考訳) オンラインゴール認識に関する最近の研究は、可観測性の低いゴールを効率的に推測するが、相対的に少ない作業は、離散ドメインと連続ドメインの両方で動作するオンラインゴール認識に焦点を当てている。
オンラインゴール認識アプローチは、新しい観察ごとにプランナーへの繰り返し呼び出しに依存し、高い計算コストを伴います。
連続空間におけるゴールを迅速かつ確実に認識することは、実際の物理世界が高速移動しているため、軌道計画問題にとって重要な問題である。
本研究では,個別領域における各目標に対するプランナーへの1回の呼び出し,あるいは連続領域における計算負担を軽減する簡易な動作モデルのいずれかに依存する,効率的なゴール認識手法を開発する。
その結果、認識順序のオンラインコンポーネントは、現在の最先端技術よりも高速に動作し、サブ秒の認識を必要とするロボティクスアプリケーションで効果的に使用できる最初のオンラインメソッドとなる。 While recent work on online goal recognition efficiently infers goals under low observability, comparatively less work focuses on online goal recognition that works in both discrete and continuous domains. Online goal recognition approaches often rely on repeated calls to the planner at each new observation, incurring high computational costs. Recognizing goals online in continuous space quickly and reliably is critical for any trajectory planning problem since the real physical world is fast-moving, e.g. robot applications. We develop an efficient method for goal recognition that relies either on a single call to the planner for each possible goal in discrete domains or a simplified motion model that reduces the computational burden in continuous ones. The resulting approach performs the online component of recognition orders of magnitude faster than the current state of the art, making it the first online method effectively usable for robotics applications that require sub-second recognition. | 翻訳日:2023-07-18 17:19:33 公開日:2023-07-15 |
# 代理訓練による対人移動可能性の理解に向けて Towards Understanding Adversarial Transferability From Surrogate Training ( http://arxiv.org/abs/2307.07873v1 ) ライセンス: Link先を確認 | Yechao Zhang, Shengshan Hu, Leo Yu Zhang, Junyu Shi, Minghui Li, Xiaogeng Liu, Wei Wan, Hai Jin | (参考訳) DNNの逆例(AE)は転送可能であることが示されている: ホワイトボックスサロゲートモデルをうまく騙すAEは、異なるアーキテクチャで他のブラックボックスモデルを騙すこともできる。
多くの実験的な研究は、高度に伝達可能なAEを生成するためのガイダンスを提供してきたが、これらの発見の多くは説明に欠け、矛盾するアドバイスに至る。
本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出し,サロゲート的な側面に焦点をあてる。
弱い摂動サンプルで逆向きに訓練されたモデルがより良い代理となるという、興味深い小さな堅牢性現象から始まり、モデルの滑らかさと勾配類似性という2つの主要な要因のトレードオフが原因と考えられる。
研究は, 移動可能性との相関性ではなく, 共同効果に焦点をあてた。
一連の理論的および経験的分析を通して、逆行訓練におけるデータ分布シフトが勾配類似性の低下を説明すると推測する。
これらの知見に基づいて,データ拡張と勾配正規化が伝達可能性に与える影響を考察し,そのトレードオフが様々なトレーニングメカニズムに一般的に存在していることを確認する。
最後に,入力勾配正則化とシャープネス認識最小化(sam)の組み合わせなど,モデルの滑らかさと勾配の類似性を同時に最適化するトランスファー性を高めるために,より優れたサロゲートを構築するための一般的な経路を提案する。
要約すると、我々は、一方を無視しながら一方を最適化するのではなく、他方を効果的に移動攻撃する2つの要因の統一的な影響に注意を向け、代理モデルを操作する重要な役割を強調している。 Adversarial examples (AEs) for DNNs have been shown to be transferable: AEs that successfully fool white-box surrogate models can also deceive other black-box models with different architectures. Although a bunch of empirical studies have provided guidance on generating highly transferable AEs, many of these findings lack explanations and even lead to inconsistent advice. In this paper, we take a further step towards understanding adversarial transferability, with a particular focus on surrogate aspects. Starting from the intriguing little robustness phenomenon, where models adversarially trained with mildly perturbed adversarial samples can serve as better surrogates, we attribute it to a trade-off between two predominant factors: model smoothness and gradient similarity. Our investigations focus on their joint effects, rather than their separate correlations with transferability. Through a series of theoretical and empirical analyses, we conjecture that the data distribution shift in adversarial training explains the degradation of gradient similarity. Building on these insights, we explore the impacts of data augmentation and gradient regularization on transferability and identify that the trade-off generally exists in the various training mechanisms, thus building a comprehensive blueprint for the regulation mechanism behind transferability. Finally, we provide a general route for constructing better surrogates to boost transferability which optimizes both model smoothness and gradient similarity simultaneously, e.g., the combination of input gradient regularization and sharpness-aware minimization (SAM), validated by extensive experiments. In summary, we call for attention to the united impacts of these two factors for launching effective transfer attacks, rather than optimizing one while ignoring the other, and emphasize the crucial role of manipulating surrogate models. | 翻訳日:2023-07-18 17:19:17 公開日:2023-07-15 |
# 自己指導型学習における二重発病は起こるか? Does Double Descent Occur in Self-Supervised Learning? ( http://arxiv.org/abs/2307.07872v1 ) ライセンス: Link先を確認 | Alisia Lupidi, Yonatan Gideoni, Dulhan Jayalath | (参考訳) 二重降下に関するほとんどの調査は教師付きモデルに焦点が当てられているが、自己教師付き設定を研究している研究は驚くべき現象の欠如を見出している。
これらの結果は、自己教師付きモデルには二重降下が存在しないことを示唆している。
従来検討されていない2つの設定の標準および線形オートエンコーダを用いてこれを実証的に示す。
試験損失は古典的なU字型か単調に減少するかのどちらかであり、二重蛍光曲線は示さない。
さらなる研究が、この現象の理論的基盤を明らかにするのに役立つことを願っている。 Most investigations into double descent have focused on supervised models while the few works studying self-supervised settings find a surprising lack of the phenomenon. These results imply that double descent may not exist in self-supervised models. We show this empirically using a standard and linear autoencoder, two previously unstudied settings. The test loss is found to have either a classical U-shape or to monotonically decrease instead of exhibiting a double-descent curve. We hope that further work on this will help elucidate the theoretical underpinnings of this phenomenon. | 翻訳日:2023-07-18 17:18:45 公開日:2023-07-15 |
# 社会AI学派 : 発達心理学から社会・文化エージェントへ The SocialAI School: Insights from Developmental Psychology Towards Artificial Socio-Cultural Agents ( http://arxiv.org/abs/2307.07871v1 ) ライセンス: Link先を確認 | Grgur Kova\v{c}, R\'emy Portelas, Peter Ford Dominey, Pierre-Yves Oudeyer | (参考訳) 発達心理学者は、人間の知性における社会認知能力の重要性を長い間確立してきた。
これらの能力により、私たちは人間の文化に入り、参加し、利益を得ることができます。
社会対話エージェントに関するAI研究は、主にマルチエージェント環境での文化の出現を懸念している(しばしば発達心理学の基盤が強くない)。
我々は、AI研究は心理学から知らされ、文化への参入を可能にする社会認知能力を研究するべきだと論じている。
我々は、michael tomasello と jerome bruner の理論を議論し、彼らの概念のいくつかをaiに導入し、重要な概念と社会認知能力の概要を説明する。
The SocialAI School - 手続き的に生成された環境のカスタマイズ可能なパラメータ化uiteを含むツールで、それらの概念に関する実験を単純化する。
rlエージェントと大規模言語モデルを用いた実験の例を示す。
この研究の主な動機は、発達心理学から情報を得た社会知能の問題に関わるAIコミュニティへの取り組みと、この方向への第一歩を単純化するためのツールの提供である。
コードと追加情報についてはプロジェクトのWebサイトを参照してください。 Developmental psychologists have long-established the importance of socio-cognitive abilities in human intelligence. These abilities enable us to enter, participate and benefit from human culture. AI research on social interactive agents mostly concerns the emergence of culture in a multi-agent setting (often without a strong grounding in developmental psychology). We argue that AI research should be informed by psychology and study socio-cognitive abilities enabling to enter a culture too. We discuss the theories of Michael Tomasello and Jerome Bruner to introduce some of their concepts to AI and outline key concepts and socio-cognitive abilities. We present The SocialAI school - a tool including a customizable parameterized uite of procedurally generated environments, which simplifies conducting experiments regarding those concepts. We show examples of such experiments with RL agents and Large Language Models. The main motivation of this work is to engage the AI community around the problem of social intelligence informed by developmental psychology, and to provide a tool to simplify first steps in this direction. Refer to the project website for code and additional information: https://sites.google.com/view/socialai-school. | 翻訳日:2023-07-18 17:18:38 公開日:2023-07-15 |
# 文化的視点の前提としての大規模言語モデル Large Language Models as Superpositions of Cultural Perspectives ( http://arxiv.org/abs/2307.07870v1 ) ライセンス: Link先を確認 | Grgur Kova\v{c}, Masataka Sawayama, R\'emy Portelas, C\'edric Colas, Peter Ford Dominey, Pierre-Yves Oudeyer | (参考訳) 大きな言語モデル(LLM)は、しばしば個性や値の集合を持つものとして誤解を招く。
LLMは、異なる価値観と性格特性を持つ視点の重ね合わせとみなすことができる。
LLMは、文脈に依存した価値観と人格特性を示す(人間とは対照的に、コンテキスト間でより一貫性のある価値観と人格特性を持つ傾向がある)。
本稿では,異なる価値観と性格特性を持つ様々な視点を取り入れるためのモデルとして,視点制御可能性の概念を紹介する。
実験では,心理学(PVQ,VSM,IPIP)の質問紙を用いて,様々な視点から評価値と性格特性がどう変化するかを検討した。
質的実験により,プロンプトに(単純にあるいは明示的に)意味がある場合,llm が異なる値を示すこと,また,(文脈に依存しない)意味を示さない場合であっても llm が異なる値を示すことを示す。
次に、異なるモデルの可制御性(GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM)、視点を誘導する様々な方法の有効性、モデルの乾燥性について定量的に検討する。
我々は、我々の研究のより広範な意味を調べ、様々な科学的疑問を概説する。
プロジェクトのwebサイトはhttps://sites.google.com/view/llm-superpositionsで入手できる。 Large Language Models (LLMs) are often misleadingly recognized as having a personality or a set of values. We argue that an LLM can be seen as a superposition of perspectives with different values and personality traits. LLMs exhibit context-dependent values and personality traits that change based on the induced perspective (as opposed to humans, who tend to have more coherent values and personality traits across contexts). We introduce the concept of perspective controllability, which refers to a model's affordance to adopt various perspectives with differing values and personality traits. In our experiments, we use questionnaires from psychology (PVQ, VSM, IPIP) to study how exhibited values and personality traits change based on different perspectives. Through qualitative experiments, we show that LLMs express different values when those are (implicitly or explicitly) implied in the prompt, and that LLMs express different values even when those are not obviously implied (demonstrating their context-dependent nature). We then conduct quantitative experiments to study the controllability of different models (GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM), the effectiveness of various methods for inducing perspectives, and the smoothness of the models' drivability. We conclude by examining the broader implications of our work and outline a variety of associated scientific questions. The project website is available at https://sites.google.com/view/llm-superpositions . | 翻訳日:2023-07-18 17:18:22 公開日:2023-07-15 |
# Reward Modulated Inverted STDP Learning を用いた時間パターン認識のためのカスタムDNN Custom DNN using Reward Modulated Inverted STDP Learning for Temporal Pattern Recognition ( http://arxiv.org/abs/2307.07869v1 ) ライセンス: Link先を確認 | Vijay Shankaran Vivekanand and Rajkumar Kubendran | (参考訳) 時間的スパイク認識は、異常検出、キーワードスポッティング、神経科学など、様々な領域において重要な役割を果たす。
本稿では,スパース事象系列データに基づく時間的スパイクパターン認識のための新しいアルゴリズムを提案する。
このアルゴリズムは、報酬-調整行動、ヒュービアンおよび反ヒュービアンベースの学習法を組み合わせて、短いトレーニング期間で動的データセットのパターンを識別する。
アルゴリズムは、入力データが合理化され、機能豊富ながスパーススパイク時系列データに変換される前処理ステップから始まる。
次に、線形フィードフォワードスパイクニューラルネットワークがこのデータを処理して、トレーニングされたパターンを特定する。
最後に、重み付きチェックを行い、正しいパターンが検出されたことを確認し、提案アルゴリズムの性能を評価するため、スパイク情報とその出力を含む複雑なデータセット上で、最先端と比較して学習した。 Temporal spike recognition plays a crucial role in various domains, including anomaly detection, keyword spotting and neuroscience. This paper presents a novel algorithm for efficient temporal spike pattern recognition on sparse event series data. The algorithm leverages a combination of reward-modulatory behavior, Hebbian and anti-Hebbian based learning methods to identify patterns in dynamic datasets with short intervals of training. The algorithm begins with a preprocessing step, where the input data is rationalized and translated to a feature-rich yet sparse spike time series data. Next, a linear feed forward spiking neural network processes this data to identify a trained pattern. Finally, the next layer performs a weighted check to ensure the correct pattern has been detected.To evaluate the performance of the proposed algorithm, it was trained on a complex dataset containing spoken digits with spike information and its output compared to state-of-the-art. | 翻訳日:2023-07-18 17:17:57 公開日:2023-07-15 |
# 見ることは信じない:純粋相関に対するロバスト強化学習 Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation ( http://arxiv.org/abs/2307.07907v1 ) ライセンス: Link先を確認 | Wenhao Ding, Laixi Shi, Yuejie Chi, Ding Zhao | (参考訳) ロバストネスは、ランダムな摂動、まれな出来事、悪意のある攻撃などの様々な不確実性を扱うために強化学習(RL)で広く研究されている。
本研究では, 国家の異なる部分が因果関係を持たず, 保存されていない共同設立者によって引き起こされる相関関係を持つ, 突発的相関に対するロバスト性について考察する。
例えば、自動運転車は昼間に大量の交通を観測し、夜間には人間の活動が観測できないため、夜間に軽度の交通を観測する。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
モチベーションは高いが、スプリアス相関に対するロバスト性の実現は、rlの観測されていない共作者とシーケンシャルな構造によって形成される不確実性セットが特徴付けや識別が難しいため、重大な課題をもたらす。
したがって、単純で非構造化の不確実性集合を仮定する既存のロバストなアルゴリズムは、この課題に対処するには不十分である。
そこで本研究では,rcc-mdps(ロバスト・ステート・コングド・マルコフ決定プロセス)を提案するとともに,他のロバストなrl法と比較して,スプリアス相関を破る上での優位性を理論的に実証する。
我々はまた,RCC-MDPのロバストな最適ポリシーを学ぶための経験的アルゴリズムを設計し,現実的な8つの自動運転および操作タスクにおいて,すべてのベースラインを上回ります。 Robustness has been extensively studied in reinforcement learning (RL) to handle various forms of uncertainty such as random perturbations, rare events, and malicious attacks. In this work, we consider one critical type of robustness against spurious correlation, where different portions of the state do not have causality but have correlations induced by unobserved confounders. These spurious correlations are ubiquitous in real-world tasks, for instance, a self-driving car usually observes heavy traffic in the daytime and light traffic at night due to unobservable human activity. A model that learns such useless or even harmful correlation could catastrophically fail when the confounder in the test case deviates from the training one. Although motivated, enabling robustness against spurious correlation poses significant challenges since the uncertainty set, shaped by the unobserved confounder and sequential structure of RL, is difficult to characterize and identify. Existing robust algorithms that assume simple and unstructured uncertainty sets are therefore inadequate to address this challenge. To solve this issue, we propose Robust State-Confounded Markov Decision Processes (RSC-MDPs) and theoretically demonstrate its superiority in breaking spurious correlations compared with other robust RL counterparts. We also design an empirical algorithm to learn the robust optimal policy for RSC-MDPs, which outperforms all baselines in eight realistic self-driving and manipulation tasks. | 翻訳日:2023-07-18 17:09:10 公開日:2023-07-15 |
# 偽ニュースの科学 The science of fake news ( http://arxiv.org/abs/2307.07903v1 ) ライセンス: Link先を確認 | David M. J. Lazer, Matthew A. Baum, Yochai Benkler, Adam J. Berinsky, Kelly M. Greenhill, Filippo Menczer, Miriam J. Metzger, Brendan Nyhan, Gordon Pennycook, David Rothschild, Michael Schudson, Steven A. Sloman, Cass R. Sunstein, Emily A. Thorson, Duncan J. Watts, Jonathan L. Zittrain | (参考訳) フェイクニュースは2016年のアメリカ合衆国大統領選挙で明らかに世界的な問題として浮上した。
問題に対処するには、問題の性質と範囲を定義し、リアルタイムで偽ニュースを検出し、潜在的に有害な影響を軽減するために、複数の専門分野の努力が必要です。
これは、インターネットがコンテンツをどのように拡散するか、人々がニュースを処理する方法、そしてどのように相互作用するかをよりよく理解する必要がある。
これらの分野での知識の現状をレビューし、個人が偽ニュースを識別できるようにし、プラットフォーム内の介入によって偽ニュースに対する注意を減らせるという2つの大きな潜在的な緩和戦略について論じる。
インターネットプラットフォーム(特にFacebook、Google、Twitter)と研究者との協力は、問題の規模と潜在的な介入の有効性を理解する上で極めて重要である。 Fake news emerged as an apparent global problem during the 2016 U.S. Presidential election. Addressing it requires a multidisciplinary effort to define the nature and extent of the problem, detect fake news in real time, and mitigate its potentially harmful effects. This will require a better understanding of how the Internet spreads content, how people process news, and how the two interact. We review the state of knowledge in these areas and discuss two broad potential mitigation strategies: better enabling individuals to identify fake news, and intervention within the platforms to reduce the attention given to fake news. The cooperation of Internet platforms (especially Facebook, Google, and Twitter) with researchers will be critical to understanding the scale of the issue and the effectiveness of possible interventions. | 翻訳日:2023-07-18 17:08:39 公開日:2023-07-15 |
# 自動繊維配置における異常検出:データ制限による学習 Anomaly Detection in Automated Fibre Placement: Learning with Data Limitations ( http://arxiv.org/abs/2307.07893v1 ) ライセンス: Link先を確認 | Assef Ghamisi, Todd Charter, Li Ji, Maxime Rivard, Gil Lund, Homayoun Najjaran | (参考訳) 現在の自動ファイバー配置のための欠陥検出システム(afp)は主に、十分な数のラベル付き欠陥サンプルを必要とするエンドツーエンド教師付き学習法に基づいている。
このデータ不足問題に対処するために、小さなデータセットと互換性のあるオートエンコーダベースのアプローチを導入する。
幸いなことに、基礎的な観点からの問題は、正常標本と異常標本のバイナリ分類として単純化することができる。
提案手法は, 繊維積層面の深さマップを用いて, 各複合板(タウ)に配向した小さな窓に分割する。
異常を含まないこれらのウィンドウのサブセットはオートエンコーダに渡されて入力を再構築する。
オートエンコーダは正常なサンプルでトレーニングされるため、異常なサンプルよりも正確な再構成を行うことができる。
したがって、潜在的な異常が存在するかどうかの定量的指標として再構成誤差の値が用いられる。
これらの値を組み合わせて異常マップを生成し、奥行きマップに製造欠陥を局所化することができる。
その結果、オートエンコーダは限られた数のスキャンでトレーニングされるが、提案手法は十分なバイナリ分類精度を生み出し、欠陥の位置を特定することができる。 Current defect detection systems for Automated Fibre Placement (AFP) are mostly based on end-to-end supervised learning methods requiring abundant labelled defective samples, which are not easily generated in sufficient numbers. To address this data scarcity problem, we introduce an autoencoder-based approach compatible with small datasets. Fortunately, the problem from a foundational point of view can be simplified as a binary classification between normal and abnormal samples. The proposed approach uses a depth map of the fibre layup surface, split into small windows aligned to each composite strip (tow). A subset of these windows that do not contain anomalies is passed to an autoencoder to reconstruct the input. Because the autoencoder is trained with normal samples, it produces more accurate reconstructions for these samples than for abnormal ones. Therefore, the value of reconstruction error is used as a quantitative metric for whether there are potential anomalies. These values are combined to produce an anomaly map, which can localize the manufacturing defects in the depth map. The results show that although the autoencoder is trained with a very limited number of scans, the proposed approach can produce sufficient binary classification accuracy and specify the location of the defects. | 翻訳日:2023-07-18 17:08:27 公開日:2023-07-15 |
# RABASARと簡易GLRを用いたマルチテンポラルSAR画像変化検出と可視化 Multitemporal SAR images change detection and visualization using RABASAR and simplified GLR ( http://arxiv.org/abs/2307.07892v1 ) ライセンス: Link先を確認 | Weiying Zhao, Charles-Alban Deledalle, Lo\"ic Denis, Henri Ma\^itre, Jean-Marie Nicolas and Florence Tupin | (参考訳) 変更領域の状態を理解するには、変更について正確な情報を与える必要がある。
そのため,地表面モニタリングにおいては,異なる種類の変化を検出することが重要である。
SARセンサーはこのタスクをフルフィルするのに理想的であり、それはその全天候能力、取得形状の精度、振幅データに対する大気成分の影響がないためである。
本研究では,対応する時間画素が同一のルック数(ENL)を持つことを前提として,簡易な一般化可能性比(S_{GLR}$)法を提案する。
本研究では,RABASARを用いたマルチテンポラリSAR画像デノナイズ法によって得られたデノナイズドデータを用いて,この類似性試験手法を適用し,変化領域の計算に成功した。
また,新しい変化度指標法とスペクトルクラスタリングに基づく変化分類法も開発されている。
さらに,最大変化等級時間および変化開始時間および終了時間を検出するために,単純化された一般化度比を適用した。
そこで本研究では,REACTIV法を適応して検出結果を可視化する手法を提案する。
提案手法の有効性は,シミュレーション画像とSAR画像の処理と,従来の手法との比較によって実証される。
特に, 数値実験により, 農地面積の変化, 建物面積の変化, 港面積の変化, 洪水面積の変化の検出に優れた性能を示した。 Understanding the state of changed areas requires that precise information be given about the changes. Thus, detecting different kinds of changes is important for land surface monitoring. SAR sensors are ideal to fulfil this task, because of their all-time and all-weather capabilities, with good accuracy of the acquisition geometry and without effects of atmospheric constituents for amplitude data. In this study, we propose a simplified generalized likelihood ratio ($S_{GLR}$) method assuming that corresponding temporal pixels have the same equivalent number of looks (ENL). Thanks to the denoised data provided by a ratio-based multitemporal SAR image denoising method (RABASAR), we successfully applied this similarity test approach to compute the change areas. A new change magnitude index method and an improved spectral clustering-based change classification method are also developed. In addition, we apply the simplified generalized likelihood ratio to detect the maximum change magnitude time, and the change starting and ending times. Then, we propose to use an adaptation of the REACTIV method to visualize the detection results vividly. The effectiveness of the proposed methods is demonstrated through the processing of simulated and SAR images, and the comparison with classical techniques. In particular, numerical experiments proved that the developed method has good performances in detecting farmland area changes, building area changes, harbour area changes and flooding area changes. | 翻訳日:2023-07-18 17:08:07 公開日:2023-07-15 |
# LLMとの比較によるゼロショットNLG評価 Zero-shot NLG evaluation through Pairware Comparisons with LLMs ( http://arxiv.org/abs/2307.07889v1 ) ライセンス: Link先を確認 | Adian Liusie, Potsawee Manakul, Mark J. F. Gales | (参考訳) 自然言語生成(nlg)アウトプットの評価は重要だが、労力とコストがかかる。
様々な自動NLG評価手法が提案されているが、それらはタスク固有であり、特定のドメインと属性を念頭に設計する必要があることが多い。
本研究では,オープンソースのLarge Language Models (LLMs) を用いたペアワイズ比較判定を用いたNLG評価に対する頑健なゼロショット手法を提案する。
このアプローチのモチベーションは、人間であるとしても、2つの選択肢のどちらが良いかを決定するのが、それぞれの選択肢を独立して客観的にスコアするよりも容易であることです。
我々はこの知見を用いてLLMの創発的能力を活用し、そこでFlanT5を探索し、絶対スコアを割り当てるのではなく、2つの候補応答のどちらが良いかを判断する。
以上の結果から,比較評価は絶対的な評価よりも効果的な手法であり,より小さなオープンソース LLM がより大規模な公開アクセスAPIに匹敵する性能を達成できることが示唆された。
我々は,要約評価と対話応答生成の両方のシステム評価を行い,オープンソース LLM が様々な属性に対して,人間のスコアと良好な相関関係を持つことを示す。 Evaluating Natural Language Generation (NLG) outputs is crucial but laborious and expensive. While various automatic NLG assessment methods have been proposed, they often are quite task-specific and have to be engineered with a particular domain and attribute in mind. In this work, we propose a robust zero-shot approach to NLG evaluation using pairwise comparative judgment with open-source Large Language Models (LLMs). The motivation for this approach is that even as humans, it is easier to determine which of two options are better, than it is to independently objectively score each option. We use this insight and leverage the emergent abilities of LLMs, where we probe FlanT5 to determine which of two candidate responses is better, rather than assigning absolute scores. Our results demonstrate that comparative assessment is a more effective approach than absolute scoring, enabling smaller open-source LLMs to achieve comparable performance to larger public access APIs. We evaluate systems on both summary evaluation and dialogue response generation, and show that opensource LLMs can lead to good correlations with human scores for a range of different attributes. | 翻訳日:2023-07-18 17:07:42 公開日:2023-07-15 |
# プライベートにポリシングするダークパターン Privately Policing Dark Patterns ( http://arxiv.org/abs/2307.07888v1 ) ライセンス: Link先を確認 | Gregory M. Dickinson | (参考訳) 携帯電話の位置情報の追跡、ブラウジングデータの共有、自動請求の開始、あるいはデザイナーが望む他の選択の実施など、ユーザーをだますユーザーインターフェースデザインだ。
暗いパターンは深刻な問題を引き起こす。
最も攻撃的な形式では、人間の自律性に干渉し、顧客の製品の評価と選択を阻害し、商品やサービスのオンライン市場を歪ませます。
しかし、法律の制定は大きな課題だ。説得と偽造は区別が難しいし、テクノロジーのトレンドを変えることは、常に動き続けるターゲットだ。
これらの課題に対処するため、本条では、国家私法を活用して、進化する暗黒パターンを定義し、追跡することを提案する。
判決を下した決定法は、新しい技術に迅速に対応し、許容可能な設計と許容できない設計の境界を柔軟に定義し、最もユーザーの自律性を損なう設計を迅速に特定することによって、州と連邦の規制当局の努力を強化する。 Lawmakers around the country are crafting new laws to target "dark patterns" -- user interface designs that trick or coerce users into enabling cell phone location tracking, sharing browsing data, initiating automatic billing, or making whatever other choices their designers prefer. Dark patterns pose a serious problem. In their most aggressive forms, they interfere with human autonomy, undermine customers' evaluation and selection of products, and distort online markets for goods and services. Yet crafting legislation is a major challenge: Persuasion and deception are difficult to distinguish, and shifting tech trends present an ever-moving target. To address these challenges, this Article proposes leveraging state private law to define and track dark patterns as they evolve. Judge-crafted decisional law can respond quickly to new techniques, flexibly define the boundary between permissible and impermissible designs, and bolster state and federal regulatory enforcement efforts by quickly identifying those designs that most undermine user autonomy. | 翻訳日:2023-07-18 17:07:23 公開日:2023-07-15 |